# LLM API-prijzen begrijpen
APIs voor grote taalmodellen rekenen op basis van tokengebruik, niet op basis van tijd of het aantal verzoeken. Elke API-aanroep heeft twee kostencomponenten: de invoerkosten (verwerking van jouw prompt) en de uitvoerkosten (generatie van het antwoord). Dit onderscheid begrijpen is de sleutel tot een nauwkeurige schatting van je maandelijkse rekening.# Invoer tokens versus uitvoer-tokens
Invoer tokens
Invoer tokens vertegenwoordigen alles wat naar het model wordt gestuurd: jouw systeemprompt, de gespreksgeschiedenis en het gebruikersbericht. Ze zijn goedkoper omdat het model ze parallel verwerkt. Een typische systeemprompt van 200 woorden kost ongeveer 267 invoer-tokens.
Uitvoer tokens
Uitvoer tokens worden één voor één achtereenvolgens gegenereerd, wat ze rekenintensief maakt. De meeste aanbieders rekenen 3 tot 5 keer meer voor uitvoer-tokens. Een antwoord van 300 woorden genereert ongeveer 400 uitvoer-tokens. Antwoorden beknopt houden is een van de meest effectieve strategieën om kosten te besparen.
# Het juiste model kiezen voor jouw budget
GPT-4o mini of Gemini 1.5 Flash en schakel alleen over naar een groter model als de kwaliteit tekortschiet. Het kostenverschil tussen een klein en groot model kan 10 tot 100 keer zijn. claude-3-opus of o1 voor complexe redeneeruitgaven waarbij kwaliteit direct het resultaat beïnvloedt.