# Come funziona la tariffazione delle API LLM
Le API dei modelli linguistici addebitano in base all'utilizzo dei token, non al tempo o al numero di richieste. Ogni chiamata ha due costi: il costo di input (elaborazione del tuo prompt) e il costo di output (generazione della risposta). Comprendere questa distinzione è fondamentale per stimare con precisione la tua spesa mensile.# Token di input e token di output a confronto
Token di input
I token di input rappresentano tutto ciò che viene inviato al modello: il system prompt, la cronologia della conversazione e il messaggio dell'utente. Costano meno perché il modello li elabora in parallelo. Un system prompt tipico di 200 parole genera circa 267 token di input.
Token di output
I token di output vengono generati uno per uno in sequenza, rendendoli più costosi dal punto di vista computazionale. La maggior parte dei provider addebita da 3 a 5 volte di più per i token di output. Una risposta di 300 parole genera circa 400 token di output. Mantenere le risposte concise è una delle strategie di risparmio più efficaci.
# Scegliere il modello giusto per il tuo budget
GPT-4o mini o Gemini 1.5 Flash e passa a un modello superiore solo se la qualità non è sufficiente. La differenza di costo tra un modello piccolo e uno grande può essere da 10 a 100 volte. claude-3-opus o o1 per i ragionamenti complessi dove la qualità influisce direttamente sui risultati.