LLM Kostencalculator. Prijsschatter voor AI Model APIs

Gratis online tool om de kosten van LLM API-aanroepen te schatten. Vergelijk GPT-4o, Claude, Gemini, Llama en meer met echte tokenprijzen per miljoen tokens.

~750 woorden

~375 woorden

Kosten per verzoek

$0.00
x 1,000

Geschatte totale kosten

$0.00
Invoer Uitvoer
Hulpmiddelenstudio

Wil je dit hulpmiddel op je website?

Pas kleuren en de donkere modus aan voor WordPress, Notion of je eigen site.

Veelgestelde vragen

Hoe worden de kosten van een LLM API berekend?

LLM APIs rekenen afzonderlijk voor invoer-tokens (de prompt) en uitvoer-tokens (het antwoord). De totale kosten per verzoek zijn: (invoer-tokens × invoerprijs + uitvoer-tokens × uitvoerprijs) / 1.000.000. Vermenigvuldig dit met het aantal verzoeken om de totale maandelijkse kosten te berekenen.

Wat zijn tokens en hoe verhouden ze zich tot woorden?

Een token is de basiseenheid van tekst die een taalmodel verwerkt. Gemiddeld is 1 token gelijk aan ongeveer 0,75 woord in het Engels, dus 1.000 tokens ≈ 750 woorden. Prijzen worden opgegeven per miljoen tokens ($/1M), de standaard prijseenheid bij alle aanbieders.

Waarom zijn uitvoer-tokens duurder dan invoer-tokens?

Bij het genereren van tekst (uitvoer) moet het model elke token achtereenvolgens berekenen, wat rekenintensief is dan het lezen van de invoer. De meeste aanbieders rekenen 3 tot 5 keer meer voor uitvoer-tokens dan voor invoer-tokens.

Hoe kan ik mijn LLM API-kosten verlagen?

Gebruik het kleinste model dat voldoet aan jouw kwaliteitseisen. Sla herhaalde prompts op in een cache wanneer mogelijk. Houd de systeemprompt zo kort mogelijk en vermijd onnodige context. Voor eenvoudige classificatie- of extractietaken bieden kleinere modellen zoals GPT-4o mini of Gemini Flash aanzienlijke besparingen.

# LLM API-prijzen begrijpen

APIs voor grote taalmodellen rekenen op basis van tokengebruik, niet op basis van tijd of het aantal verzoeken. Elke API-aanroep heeft twee kostencomponenten: de invoerkosten (verwerking van jouw prompt) en de uitvoerkosten (generatie van het antwoord). Dit onderscheid begrijpen is de sleutel tot een nauwkeurige schatting van je maandelijkse rekening.

# Invoer tokens versus uitvoer-tokens

Invoer tokens

Invoer tokens vertegenwoordigen alles wat naar het model wordt gestuurd: jouw systeemprompt, de gespreksgeschiedenis en het gebruikersbericht. Ze zijn goedkoper omdat het model ze parallel verwerkt. Een typische systeemprompt van 200 woorden kost ongeveer 267 invoer-tokens.

Uitvoer tokens

Uitvoer tokens worden één voor één achtereenvolgens gegenereerd, wat ze rekenintensief maakt. De meeste aanbieders rekenen 3 tot 5 keer meer voor uitvoer-tokens. Een antwoord van 300 woorden genereert ongeveer 400 uitvoer-tokens. Antwoorden beknopt houden is een van de meest effectieve strategieën om kosten te besparen.

# Het juiste model kiezen voor jouw budget

Begin met een capabel middenklasse model zoals GPT-4o mini of Gemini 1.5 Flash en schakel alleen over naar een groter model als de kwaliteit tekortschiet. Het kostenverschil tussen een klein en groot model kan 10 tot 100 keer zijn.
Niet alle taken vereisen dezelfde modelkwaliteit. Classificatie, extractie en samenvattingen werken vaak prima met kleinere, goedkopere modellen. Bewaar grote frontier-modellen zoals claude-3-opus of o1 voor complexe redeneeruitgaven waarbij kwaliteit direct het resultaat beïnvloedt.

Bibliografische Referenties