下载

请注意，原文内容为英文。部分翻译内容由自动化工具生成，可能不完全准确。如中英文版本存在任何不一致之处，以英文版本为准。

AI Token 价格：OpenAI、Claude、Gemini 及其他 AI API 的成本是多少？

By: WEEX|2026/04/30 12:15:33

AI Token 价格是指使用 AI 模型 API 的成本，按模型处理的输入和输出 Token 数量计算。Token 是文本的小单位，通常是词组片段、标点符号、数字或短词。在实际操作中，AI 平台会对您发送给模型的提示词（Prompt）和模型生成的回答分别收费。

这种拆分是理解 AI API 定价的关键。如果您的应用生成长回答、使用推理 Token、调用工具、进行网络搜索或在上下文中保留大量对话历史，那么输入 Token 看起来便宜的模型也可能变得昂贵。

截至 2026 年 4 月 30 日，OpenAI、Anthropic、Google Gemini、DeepSeek、Mistral 和 Perplexity 均发布了基于 Token 的定价，但它们的计费方式并不完全相同。一些平台对缓存输入单独定价，一些对搜索额外收费，一些将思考 Token 包含在输出中，还有一些提供批量折扣。正确的对比不是“哪个模型最便宜？”，而是“对于我实际运行的工作负载，哪个模型最便宜？”

各平台 AI Token 价格对比

下表总结了 2026 年 4 月 30 日从官方定价或文档页面查询的部分公开 API 价格。除非另有说明，价格均以每 100 万 Token 的美元金额列出。

平台	示例模型或层级	输入价格	输出价格	成本备注
OpenAI	GPT-5.5	$5.00	$30.00	用于编码和专业工作的高级模型；缓存输入价格为 $0.50
OpenAI	GPT-5.4 mini	$0.75	$4.50	用于编码、计算机使用和子代理的低成本 OpenAI 选项
Anthropic	Claude Opus 4.7	$5.00	$25.00	Opus 级定价；缓存读取价格为每百万 Token $0.50
Anthropic	Claude Sonnet 4.6	$3.00	$15.00	用于编码和代理任务的均衡 Claude 选项
Anthropic	Claude Haiku 4.5	$1.00	$5.00	低成本 Claude 层级
Google Gemini	Gemini 3.1 Pro, 提示词 <= 200K	$3.60	$21.60	输出价格包含思考 Token
Google Gemini	Gemini 3 Flash	$0.50	$3.00	注重速度的模型；批量/灵活选项可能更便宜
Google Gemini	Gemini 2.5 Flash	$0.30	$2.50	高性价比通用模型
DeepSeek	DeepSeek-V4-Flash	$0.14 缓存未命中 / $0.0028 缓存命中	$0.28	极低的挂牌费率，支持 1M 上下文
DeepSeek	DeepSeek-V4-Pro	$0.435 缓存未命中 / $0.003625 缓存命中	$0.87	官方页面显示 2026 年 4 月 30 日有折扣费率
Mistral	Mistral Small 4	$0.15	$0.60	混合指令、推理和编码模型
Mistral	Mistral Medium 3.5	$1.50	$7.50	针对代理和编码用例优化的前沿多模态模型
Perplexity	Sonar Pro	$3.00	$15.00	搜索请求费用单独收取
Perplexity	Sonar Deep Research	$2.00	$8.00	增加引用、搜索查询和推理 Token 定价

简而言之：DeepSeek 和 Mistral 发布了一些最低的 Token 价格，Gemini Flash 类模型适合高容量工作负载，而 OpenAI 或 Claude 高级模型成本更高，因为它们针对更难的推理、编码和代理工作。但价格本身并不能证明价值。一个需要三次重试的廉价模型，可能比一次性完成任务的高级模型成本更高。

输入和输出 Token 的含义

输入 Token 是您发送给模型的所有内容：用户提示词、系统消息、对话历史、示例、检索到的文档、工具架构，有时还包括文件或图像表示。输出 Token 是模型生成的内容。

输出 Token 通常更重要，因为它们通常更昂贵。例如，OpenAI 的 GPT-5.5 输出价格为每百万 Token $30，而输入为 $5。Claude Sonnet 4.6 输出为 $15，输入为 $3。Gemini 3.1 Pro 输出为 $21.60，而 200K Token 以内的提示词为 $3.60。

这意味着提供长回答的聊天机器人、撰写完整文章的 AI 写作工具或解释每一步的代理可能会迅速消耗预算。如果您想在实际生产中降低 AI Token 价格，控制输出长度通常比从提示词中减少几百个 Token 更重要。

如何估算真实的 AI API 成本

基本公式很简单：

总成本 = 输入 Token x 输入费率 + 输出 Token x 输出费率 + 工具/搜索/存储费用

例如，假设一个支持聊天机器人使用 Claude Sonnet 4.6，一个请求有 2,000 个输入 Token 和 600 个输出 Token。按每百万输入 Token $3 和每百万输出 Token $15 计算，请求成本为：

项目	Token	费率	成本
输入	2,000	$3 / 1M	$0.006
输出	600	$15 / 1M	$0.009
总计	2,600	混合	$0.015

每个请求看起来很小，但规模化后影响巨大。一百万个类似请求的成本约为 $15,000，这还不包括额外的工具、搜索、存储、日志记录、重试或编排成本。

这就是为什么团队应该使用真实的流量样本进行测试。定价页面告诉您费率，而您的产品设计决定了 Token 量。

-- 价格

哪个 AI 平台最便宜？

没有普遍最便宜的平台，因为“便宜”取决于工作负载。

对于高容量的分类、提取、标记和简短摘要，DeepSeek-V4-Flash、Mistral Small 4、Gemini Flash 或 Haiku 类层级等低成本模型可能就足够了。这些工作负载通常具有可预测的提示词和简短的输出，因此成本比最大推理深度更重要。

对于编码代理、复杂研究、长上下文分析和专业工作流自动化，即使 Token 价格较高，更强大的模型也可能带来最佳价值。OpenAI GPT-5.5、Claude Opus/Sonnet、Gemini Pro 和 Mistral Medium 类模型是为更艰巨的工作定价的。如果高级模型减少了重试、幻觉、审查时间或失败的工具调用，它在工作流层面可能更便宜。

对于搜索密集型应用，Perplexity Sonar 的定价需要单独看待。Token 价格只是账单的一部分。Sonar 和 Sonar Pro 还根据搜索上下文大小收取请求费，而 Sonar Deep Research 可能会增加引用 Token、搜索查询成本和推理 Token。

大多数人对 AI Token 价格的误解

第一个错误是只比较输入 Token 数量。输出通常更昂贵，许多现代模型还将思考或推理 Token 作为输出的一部分进行计费。

第二个错误是忽略缓存输入。OpenAI、Anthropic、Google、DeepSeek 和 xAI 都以不同方式描述缓存或与缓存相关的定价。如果您的应用重复发送相同的长系统提示词、政策文本、产品目录或文档块，缓存可以显著降低成本。如果每个请求都是唯一的，缓存的作用就较小。

第三个错误是忘记工具不是免费的。网络搜索、代码执行、文件搜索、检索、存储、图像生成、语音和长上下文处理都可能改变有效价格。例如，xAI 的官方文档将 Token 成本与服务器端工具调用成本分开。Perplexity 将 Token 定价与搜索请求费用分开。Google 对某些基础和搜索使用单独收费。

第四个错误是假设所有提供商的 Token 都是平等的。分词器（Tokenizer）不同。Anthropic 指出，Claude Opus 4.7 使用了一种新的分词器，对于相同的固定文本，它可能使用多达 35% 的 Token。在按每百万 Token 价格比较提供商时，这一点很重要。

对于关注 AI 模型成本如何影响更广泛的技术和市场叙事的读者，WEEX 也发布了关于 OpenAI GPT-5.5 用于代理任务的报道。这与 API 计费是不同的主题，但它有助于解释为什么当大型 AI 平台改变定价或发布更强大的模型时，模型能力、Token 成本和市场关注度往往会同步变动。

当 AI 新闻波及上市股票、AI 基础设施名称和具有 AI 叙事的数字资产时，这种市场联系尤为相关。在这些情况下，单位价格是不够的。读者在将 AI 头条新闻视为追逐任何 Token 或市场代理的理由之前，还需要了解加密货币市值等估值基础知识。

实用预算建议

从一小组基准测试开始。在两到三个候选模型上运行相同的真实提示词，然后测量输入 Token、输出 Token、延迟、准确性和重试率。

限制输出长度。长回答很昂贵，而且用户通常更喜欢简洁的回复。尽可能使用最大输出限制、结构化格式或简短回答模式。

区分简单和困难的任务。不要将每个请求都发送给最昂贵的模型。将简单的分类、重写和提取工作路由到更便宜的模型，然后为复杂的推理、编码或高风险审查保留高级模型。

在上下文重复的地方使用缓存。长系统提示词、政策文档、风格指南和产品参考资料都是很好的候选对象。

关注工具使用。搜索、文件检索和代码执行可能是必要的，但应将其作为总成本的一部分进行衡量，而不是将其视为不可见的模型行为。

风险警告：AI API 定价变化迅速

AI Token 价格比较中最大的风险是数据陈旧。提供商会更改模型名称、折扣结构、批量定价、缓存规则、上下文窗口层级和工具费用。2026 年 4 月准确的比较在模型发布或定价更新后可能就会出错。

此外还存在运营风险。提示词循环、重试错误、失控的代理、过长的上下文窗口或工具调用错误可能会将廉价的原型变成昂贵的生产事故。设置严格的支出限额，按功能监控使用情况，记录 Token 数量，并在部署后的最初几周内审查发票。同样的纪律也适用于围绕 AI 定价新闻的交易：一套实用的交易风险管理框架比将每次模型发布都视为信号更有用。

安全风险属于同一对话范畴。一旦自动化连接到真钱或真实基础设施，AI API 密钥、计费仪表板、云控制台和交易账户都会成为高价值目标。如果您的团队正在收紧访问控制，WEEX 关于双重身份验证 (2FA) 的指南是关于为什么双重保护很重要的有用通俗复习。团队还应刷新基本的防钓鱼习惯，特别是在重大 AI 产品新闻发布后，API 密钥重置、虚假计费警报和支持冒充信息增加时。WEEX 关于如何识别钓鱼并保护您的 WEEX 账户的指南不仅适用于交易所账户，因为攻击模式在开发工具和金融平台之间是相似的。

最后，避免仅仅因为模型具有最低的挂牌 Token 价格而选择它。真正的风险是每个 Token 支付的费用更少，但每个成功任务的成本更高，因为模型需要更多的重试、产生较弱的答案或需要更多的人工审查。

总结

比较 AI Token 价格的最佳方法是计算真实任务的成本，而不仅仅是每百万 Token 的标价。OpenAI 和 Claude 高级模型很昂贵，但对于复杂工作来说可能是值得的。Gemini、DeepSeek 和 Mistral 为高容量工作流提供了强大的低成本选项。Perplexity 在内置搜索至关重要时很有用，但其请求和搜索成本必须单独计算。

在选择平台之前，测试您自己的提示词，测量输入和输出 Token，包含工具费用，并比较每个成功结果的成本。这才是生产中唯一重要的 AI Token 价格。