# LLM APIの料金体系を理解する
大規模言語モデルのAPIは、時間やリクエスト数ではなく、トークンの使用量に基づいて課金されます。各APIコールには2種類のコストが発生します。入力コスト(プロンプトの処理)と出力コスト(レスポンスの生成)です。この違いを把握することが、月額費用を正確に見積もるうえで欠かせません。# 入力トークンと出力トークンの違い
入力トークン
入力トークンとは、モデルに送信されるすべてのテキストを指します。システムプロンプト、会話履歴、ユーザーメッセージが含まれます。モデルがこれらを並列処理するため、コストは比較的低く抑えられます。200単語程度の一般的なシステムプロンプトは、おおよそ267入力トークンに相当します。
出力トークン
出力トークンは1つずつ逐次的に生成されるため、計算コストが高くなります。多くのプロバイダーでは、出力トークンの料金を入力トークンの3〜5倍に設定しています。300単語のレスポンスはおよそ400出力トークンに相当します。レスポンスを簡潔に保つことは、コスト削減に最も効果的な手段のひとつです。
# 予算に合ったモデルの選び方
GPT-4o miniやGemini 1.5 Flashのような中堅モデルから始め、品質が不十分な場合にのみ上位モデルへ移行することをおすすめします。小型モデルと大型モデルのコスト差は、10〜100倍になることもあります。 claude-3-opusやo1のような大規模フロンティアモデルは、品質が結果に直接影響する複雑な推論タスクのために取っておきましょう。