# 理解 LLM API 定价
大型语言模型 API 根据代币使用情况计费,而不是按时间或请求次数计费。每个 API 调用有两项成本:输入成本(处理您的提示)和输出成本(生成响应)。理解这种分割是准确估算您每月账单的关键。# 输入代币与输出代币
输入代币
输入代币代表发送给模型的所有内容:您的系统提示、对话历史和用户消息。由于模型并行处理它们,所以它们更便宜。一个 200 字的典型系统提示大约需要 267 个输入代币。
输出代币
输出代币按顺序逐个生成,使其在计算上更昂贵。大多数提供商对输出代币的收费多出 3–5 倍。一个 300 字的响应会生成大约 400 个输出代币。保持响应简洁是最有效的成本节省策略之一。
# 为您的预算选择合适的模型
GPT-4o mini 或 Gemini 1.5 Flash,仅在质量不足时升级。小型和大型模型之间的成本差异可能是 10–100×。 claude-3-opus 或 o1,用于复杂的推理任务,其中质量直接影响结果。