# Memahami penetapan harga API LLM
API model bahasa besar mengenakan biaya berdasarkan penggunaan token, bukan waktu atau jumlah permintaan. Setiap panggilan API memiliki dua komponen biaya: biaya input (memproses prompt Anda) dan biaya output (menghasilkan respons). Memahami perbedaan ini adalah kunci untuk memperkirakan tagihan bulanan Anda secara akurat.# Token input vs token output
Token input
Token input mewakili semua yang dikirimkan ke model: system prompt, riwayat percakapan, dan pesan pengguna. Lebih murah karena model memprosesnya secara paralel. System prompt tipikal sepanjang 200 kata menghasilkan sekitar 267 token input.
Token output
Token output dihasilkan satu per satu secara berurutan, sehingga lebih intensif secara komputasi. Sebagian besar penyedia mengenakan biaya 3–5× lebih mahal untuk token output. Respons 300 kata menghasilkan sekitar 400 token output. Menjaga respons tetap ringkas adalah salah satu strategi penghematan biaya yang paling efektif.
# Memilih model yang tepat sesuai anggaran
GPT-4o mini atau Gemini 1.5 Flash dan naik ke model yang lebih besar hanya jika kualitasnya belum memadai. Perbedaan biaya antara model kecil dan besar bisa mencapai 10–100×. claude-3-opus atau o1 untuk tugas penalaran kompleks yang kualitasnya berdampak langsung pada hasil.