Token经济学全景报告

推理成本下降 280 倍,总支出却反增 2.4 倍。这组看似矛盾的数字,正在定义 AI 时代最核心的经济规则,也就是 Token 经济学。

Token 从来都不只是 AI 交互里的简单计量单位,它是贯穿整个 AI 产业的价值标尺,从上游芯片制造到终端用户交互,所有环节的价值流转,都在围绕 Token 展开。它的价格体系有着清晰的分层,基于算力质量和响应延迟,市场形成了五档成熟的定价标准,从 0 美元的免费层,到最高 150 美元每百万 Token 的顶级层。

不同定价对应着完全不同的使用场景,顶级层面向对延迟和可靠性有极致要求的场景,高级层服务大中型企业的稳定需求,中等层覆盖中小企业的基础推理服务,免费层则面向开发者和测试用户,设置了明确的 Token 量限制。这种分层定价把商业逻辑里的价格歧视做到了极致,也让不同需求的用户,都能在这个体系里找到对应的位置。

Token 市场的爆发速度,远超所有人的预期。OpenRouter 平台的 Token 处理量三年增长 10 倍,从 2022 年中的 10 万亿 Token,一路冲到 2025 年中的 100 万亿 Token。伴随处理量暴涨的,是整个市场的资金体量。2026 年全球 AI 支出预计达到 2.52 万亿美元,同比增长 44%。生成式 AI 市场到 2030 年将达到 2200 亿美元。更长远的测算里,到 2030 年 AI 解决方案给全球带来的累计经济影响,将达到 22.3 万亿美元。

Token 的流转贯穿了 AI 产业的五大核心环节。最上游是芯片设计与制造,这类厂商在这里掌握着最核心的硬件话语权。紧接着是基础设施建设,这类企业主导数据中心的建设与运营,聚合平台则提供弹性算力租赁与调度服务。再往下是模型即服务的环节,基础模型提供商,把硬件算力转化为可调用的模型能力。最贴近用户的,是应用开发与服务环节,各类 AI 原生应用把 Token 转化为用户能直接感知的功能与体验。每一个环节的价值创造,最终都能折算成 Token 的生产、调度与消耗,Token 成了整个产业通用的价值语言。

在 Token 的供给端,英伟达构建起了难以撼动的算力帝国。2025 财年,英伟达数据中心业务营收达到 1152 亿美元,占到总营收的 88.3%,全年总营收 1305 亿美元,同比增长 114%。支撑起这个庞大营收体量的,不只是硬件本身,还有 CUDA 生态构建的护城河。这个拥有超过 600 万注册开发者的生态系统,形成了极强的正反馈循环,更多开发者使用带来更多软件开发,进而拉动更大的硬件需求,也让竞争对手很难撼动其市场份额。

英伟达的技术迭代,始终围绕 Token 效率展开。从 Hopper 架构到 Blackwell,再到最新的 Vera Rubin 平台,晶体管数量从 800 亿跃升至 3360 亿,内存带宽也实现了量级式的跨越。它还和 Groq 达成 200 亿美元的合作协议,把 Groq 的 LPU 专用推理加速器整合进 Vera Rubin 平台,GPU 主攻高吞吐量的训练与推理场景,LPU 主攻低延迟的实时应用,让平台的 Token 处理能力再上一个台阶。老黄的判断贯穿了整个产业的核心逻辑,在固定功率限制下,谁的每瓦 Token 吞吐量最高,谁就拥有最低的生产成本。这句话也成了所有算力玩家竞争的核心标尺。

推理经济学,是 Token 经济学最核心的组成部分。过去几年,AI 推理成本出现了断崖式的下跌。GPT-3.5 的推理成本,从最初的每百万 Token20 美元,降到了 0.07 美元,降幅达到 280 倍。硬件创新是核心驱动力,Blackwell 平台推动每瓦 Token 吞吐量实现指数级提升,模型量化、蒸馏、推测解码等软件优化技术,进一步降低了推理的时延和能耗,各类开源模型的崛起,更是以极低成本逼近闭源模型的效果,打破了头部厂商的定价垄断,直接推动全行业的成本下行。

但成本的暴跌,并没有带来总支出的下降,反而出现了经典的杰文斯悖论。单位推理成本下降 280 倍的同时,OpenAI 的推理总支出反增约 2.4 倍,从 2024 年的 37 到 38 亿美元,涨到了 2025 年的 88 到 90 亿美元。背后的核心逻辑,是推理服务的需求对价格极度敏感,价格的小幅下降,就会引发需求的爆炸式增长。短期来看,推理需求的价格弹性略高于 1,价格下降带来的需求增长幅度,超过了成本下降的幅度,最终让总支出不降反增。

需求的爆炸,有清晰的微观驱动逻辑。首先是审批摩擦的消失,低廉的推理成本,让大量原本需要层层审批的 AI 试点项目,能够快速落地实施。然后是流程自动化的全面铺开,客服等大量人工流程,直接转为 AI 自动推理,Token 的使用量出现成倍提升。第三是多场景多模型的应用普及,企业不再局限于单一模型的使用,而是在不同场景里同时调用多个模型,推动 Token 消耗的多元化增长。最后是用户行为的根本变化,推理成本的降低,让用户和 AI 的交互变得更频繁、更细粒度,原本一次完成的交互,被拆分为多次精准的调用,进一步推高了 Token 的总消耗量。

激烈的市场竞争,让推理服务的价格战愈演愈烈。不同厂商的定价出现了巨大的分化,OpenAI GPT-4o 的输入定价为每百万 Token2.5 美元,输出定价为每百万 Token10 美元,而 DeepSeek V3.2 开源模型的输入定价仅为每百万 Token0.14 美元,输出定价 0.28 美元,成本仅为 GPT-4o 的 1/18,直接拉低了全行业的价格底线。为了控制成本,行业里也形成了成熟的管控策略,智能路由策略把简单查询导向低成本模型,复杂查询分配给高性能模型,实现资源的最优配置。企业也会为 Token 设置硬性预算约束,避免无限制的成本扩张,同时通过批处理、缓存、上下文压缩等技术,持续优化推理资源的使用效率。

推理服务市场,已经形成了三类核心参与者。第一类是大型云服务商,凭借极强的规模经济和技术壁垒,实现全场景的服务覆盖。第二类是专用推理平台,依靠开源驱动和低价策略切入市场,针对特定模型做深度优化。第三类是专用加速器厂商,主打极致的性能与低延迟,面向高端客户群体,依靠硬件绑定获得溢价。不同的玩家针对不同的客户需求,形成了差异化的竞争格局,但也都无法避开价格战的漩涡。

在持续的价格竞争中,推理服务商陷入了薄包装公司的困境,各厂商都倾向于通过降价争夺市场,最终导致行业整体利润率持续走低。长期来看,市场的均衡价格会无限趋近于边际成本,利润变得微薄甚至为负。固定费率的套餐模式,更是让服务商陷入了逆向选择的困境,低价的月度无限推理套餐,最终只会吸引高用量客户涌入,服务商的利润被严重侵蚀,而按量计费的服务商,又要面对客户流失的压力。在竞争与博弈中,行业也开始探索合作共赢的模式,服务商之间共享模型资源与算力基础设施,联合开发路由和调度算法,同时在技术研发和解决方案上保持竞争,形成了既合作又竞争的行业生态。

中国的 AI 算力产业,正在迎来高速增长期。2026 年,中国 AI 加速芯片市场规模将达到 3813.9 亿元,年增长率超过 58%。AI 大模型市场规模,也将从 2024 年的 294 亿元,增长至 2026 年的 700 亿元以上。基础设施层面,中国已经建成 42 个万卡级智算集群,智能算力总规模超过 1590 EFLOPS。2024 年,中国 AI 服务器市场规模达到 134 亿美元,同比增长 56%。国产芯片领域也实现了持续的技术突破。

Token 对宏观经济的深层影响,正在逐步显现,最直接的体现就是劳动力市场的 K 型极化。AI 算力 Token 正在加速高技能溢价与中低技能替代的分化进程。高技能岗位能够利用 Token 大幅提升生产效率,对应的工资溢价持续扩大。中技能岗位的部分任务被 AI 替代,市场需求出现结构性下降,工资增长陷入停滞。低技能岗位里的重复性工作,正在被大规模替代,市场需求急剧下降。

这种分化,带来了幽灵 GDP 的现象,AI 推动的产出增长,并没有有效转化为劳动者的工资收入。数据显示,AI Token 经济下的 GDP 增长率达到 5.5%,远高于传统经济 3.0% 的增速,但劳动收入增长率却从 2.5% 降至 0.8%,与之相对的,是资本收入增长率从 3.5% 升至 8.0%。AI 带来的产出增长,主要流向了资本所有者,劳动收入在整体经济中的份额,也从 60% 降至 45%。技术变革也带来了创造性破坏,市场中涌现出 21% 的新岗位类型,AI 训练师、数据科学家、AI 产品经理等新职业快速发展,其中 AI 训练师的岗位需求增长达到 112.4%,这也对传统劳动者的技能转换和再就业,提出了更高的要求。

在企业层面,Token 正在推动一场深刻的转型,企业正在从 SaaS 的购买者,转变为 AI 工厂的建设者。Token 的成本构成里,50% 来自 GPU 及加速器硬件成本,包括折旧、维护和能耗,另外 50% 则来自非 GPU 因素,其中网络与冷却设施占 20%,软件栈与平台维护占 15%,人工与支持服务占 10%,剩余 5% 为其他成本。

针对不同的企业规模和 Token 消耗量,市场形成了三种主流的消费模式。低资本投入的 SaaS 模式,订阅费固定,适合中小企业和项目试点。中等资本投入的 API 模式,按实际 Token 消耗量计费,适合成长期企业。高资本投入的 AI 工厂模式,以固定资产投入加运营成本为主,适合大型互联网企业。规模效应在这个过程中体现得淋漓尽致,当日 Token 消耗量达到 100 亿时,AI 工厂的单位成本,仅为 SaaS 模式的 15%。每瓦 Token 吞吐量,已经成为企业核心的竞争力指标,英伟达 Vera Rubin 平台能做到每瓦 20 万 Token,Groq LPU 加速器达到每瓦 25 万 Token,而传统 GPU 数据中心仅能做到每瓦 12 万 Token,这个指标的差异,直接决定了企业的生产成本和竞争能力。

Token 也正在重构企业的组织架构和激励体系。黄仁勋曾指出,未来工程师的效率,可因 Token 预算的配备而提高 10 倍。这种效率提升,来自三个层面,首先是自动化替代,客服和初级开发等岗位的工作,通过 AI 推理实现自动化处理。其次是辅助决策与知识工效增强,高技能岗位借助 AI,大幅提升信息处理的速度和质量。第三是智能工作流的再造,Token 驱动的 AI 工厂模式,全面优化了企业内部的生产流程。

更值得关注的是 Token 薪资的出现,它的核心逻辑是,工程师可以获得相当于年薪一半的 Token 预算,作为额外的数字激励。Token 不再只是单纯的生产资料,更成为人力资本配置与激励的关键变量,重塑了企业内部的工作价值链,企业也开始形成基于 Token 产出的绩效考核体系,激发全员的创新与协作。

但同时劳动生产率悖论也随之出现,技术进步显著提升了单位劳动的产出,但就业总量的增长和劳动收入的提升,并没有与之同步。就业结构出现了明显的 K 型分化,高技能岗位就业增长 12%,而中低技能岗位的就业规模萎缩 15%。这种产出与收入的脱钩,带来了深层的宏观经济影响,资本积累加速让劳动收入份额持续下降,财富高度集中于少数科技巨头和算力资源所有者,劳动者收入的停滞,降低了中产阶级的消费能力,抑制了内需的增长,也让经济增长的动力过度依赖资本投资。

算力已经成为主权国家的核心战略资源,全球范围内围绕算力的地缘政治博弈,正在全面展开。算力具备三大核心经济特征,首先是高固定成本与规模经济,数据中心和芯片制造,都需要数百亿美元级别的资本投入。其次是网络效应与平台依赖,算力与数据、模型、应用之间,形成了极强的绑定效应。第三是边际成本递减与需求弹性,推理成本的大幅下降,会直接推动需求的爆炸式增长。算力与能源,已经成为主权国家竞争的核心焦点,全球数据中心的电力需求,将从 2025 年的 860 TWh,增长至 2030 年的 1587 TWh,增幅达到 84.7%,美国和中国合计占据了全球约 70% 的数据中心容量。

关于报告的所有内容,公众号『行业报告智库』阅读原文或点击菜单获取报告下载查看。

社交账号快速登录