文章作者、来源：硅谷101 在硅谷，有了一种新的炫富方式——每天烧了多少token。对于这个炫富方式，现在有一个新词叫：Token-maxxing，意思是“把token用量拉到极限”。它变成了公司内外人们攀比的新方式：你每天消耗多少token、你能同时调度多少个agent运行、你的token throughput（吞文章作者、来源：硅谷101 在硅谷，有了一种新的炫富方式——每天烧了多少token。对于这个炫富方式，现在有一个新词叫：Token-maxxing，意思是“把token用量拉到极限”。它变成了公司内外人们攀比的新方式：你每天消耗多少token、你能同时调度多少个agent运行、你的token throughput（吞

Token经济学：AI时代的新货币战争

来源：MetaEra

2026/05/14 11:22

阅读时长 33 分钟

如需对本内容提供反馈或相关疑问，请通过邮箱 [email protected] 联系我们。

文章作者、来源：硅谷101

在硅谷，有了一种新的炫富方式——每天烧了多少token。

对于这个炫富方式，现在有一个新词叫：Token-maxxing，意思是“把token用量拉到极限”。它变成了公司内外人们攀比的新方式：你每天消耗多少token、你能同时调度多少个agent运行、你的token throughput（吞吐量）有多高，这些都正在变成衡量一个人“有多AI原生”的新指标。

不过，对于这种新竞赛，全球AI圈巨头们正在进行着一场激烈的辩论：公司是否应该不设限制地鼓励员工们去使用token？

而在这场辩论的背后，是一场围绕token展开的新军备竞赛。硅谷大厂们为什么在疯狂卷token用量，这背后到底有没有道理？大模型公司是怎么给token定价的？中国模型如何凭借“物美价廉”杀入全球开发者市场，在OpenRouter上霸榜？“Token套利“的新模式，怎么来赚差价？以及在所有这些背后，一个更大的问题：中国的token出海，会不会成为下一个结构性的产业机会？如果上一个时代中国出口的是衬衫，这个时代是电动车，下一个时代会是token吗？

01 Token-maxxing之辩——用得越多就越好吗？

4月初，Meta被爆内部有一个名为“Claudeonomics“排行榜，这个排行榜汇集了超过85000名Meta员工的AI使用数据，列出了token消耗量最高的前250名“超级用户”。

在最近一个月，排行榜上的总使用量突破了60万亿token，如果按照Anthropic Opus 4.6的定价，大约每百万token平均15美元来粗略换算的话，这些token的价值高达约9亿美元。排名第一的那位员工，烧掉的token价值高达数百万美元。

这个消息曝光之后立马在硅谷引发了一场大辩论。

AI创业公司Writer的CEO May Habib，直接说这是“生死存亡级别的问题”。她自己公司内部也有一个token消耗排行榜，而且她明确告诉员工，她本人在盯这个数据。她认为如果不全力拥抱AI，就会被淘汰。

Uber也很激进。目前Uber后端系统中，11%的新代码更新已经由agent完成，而三个月前这个比例还不到1%。Uber CTO的原话很直白：“我的愿景是把软件工程转型为agent软件工程。”

但反对Token-maxxing的声音同样尖锐。

HubSpot的CEO Yamini Rangan，在LinkedIn上发了一句被广泛转发的话：“Outcome maxxing>>token maxxing”。意思是，比起疯狂消耗token，不如看看你产出了什么结果。她代表了另一种重要观点：纯粹的token使用量，是一个错误的指标。

AI软件工程公司Jellyfish的CEO Andrew Lau，说得更直白：“你可以一天到晚刷token，但得到的结果可能完全不是你想要的。”

这两派的吵得不可开交。但更多的中间派似乎还是形成了共识：不充分利用AI的公司，会被竞争对手超越并变得过时。在这种信念下，哪怕排行榜和激励制度不完美，哪怕一些AI使用最终被证明是浪费的，大厂创始人和高层们也被卷起来了，认为必须要这样做才能让公司转型成为更AI-native（AI原生）的公司。

自OpenClaw爆火以来，agent任务烧掉的token量直线上升。科技巨头们可以不顾成本的烧token，但对于创业公司和个人开发者来说，token的成本带来的是焦虑。

Uber的CTO在接受采访时透露，公司2026年的AI预算在开年几个月内就已经全部用完了，主要是因为工程师们对Claude Code的使用量暴增。他的原话是：“我得重新回去做预算了，因为我以为够用一年的钱，已经没了。”

硅谷知名投资人Chamath Palihapitiya最近也公开抱怨，他投资的一家软件公司自从团队开始用AI编程工具后，运营成本在几个月内翻了三倍多，照这个趋势年化AI支出将达到千万美元级别。他半开玩笑地说了一句在社交媒体上广为流传的话：感谢VC们掏钱为这场AI盛宴买单。

可以看到，对于企业来说，特别是软件SaaS行业，AI时代的成本结构跟过去完全不一样了。以前做一个SaaS产品，研发投入是一次性的，用户越多边际成本越低，这是一门越卖越赚的生意。但现在，每个用户的每一次操作背后都有一笔token账单在跑，用户用得越深、功能越智能，作为产品方，反而要付更多钱给模型厂商。这个成本不会像传统软件那样摊薄到接近零，它是跟着用量线性增长的。

这也是为什么token正在变成AI创业公司最核心的“弹药”，也有风投基金开始尝试直接给被投企业提供token额度，作为投资的一部分。这个逻辑很简单：对很多AI创业项目来说，拿到钱之后第一件事就是去买token，那为什么不直接给token呢？

顺着这个逻辑来讲，是不是token正在变成一种新的货币？那token又到底是如何定价的呢？

02 拆解Token账单——大模型公司到底怎么算钱？

Token的定价是怎么算的？这个问题的答案，远不是“一个单价乘以数量“这么简单。我们以一次最简单的对话交互为例，你的账单上至少有三种不同价格的token在运转：

第一是Input token（输入token），也就是你发给模型的内容。

第二是Cached input token（被缓存的输入 token），意思是如果某些prompt、上下文或文件内容之前已经被模型系统缓存过，再次调用时，这部分token的价格会更便宜。

第三是Output token（输出token），也就是模型生成回答时产生的token。

研究芯片与token efficiency（词元效率）方向的肖志斌在接受硅谷101采访时就说，平均来说，在对话任务上，这三者的价格大概是：1:0.1:6的水平。

不同公司根据模型的能力给出的定价是不同的。举个例子，GPT-5的API价格上，Input是每百万token 1.25美元，Cached input是每百万token 0.125美元，Output token是每百万token 10美元。

而OpenAI发布的最新模型GPT-5.5，分了长短上下文两档，长上下文的价格是2倍。短上下文Input是每百万token 5美元，Cached input是每百万token 0.5美元，Output token是每百万token 30美元。

如果直接对比价格的话，是不是觉得涨价了好几倍，其实不能这么算。

这里面有一个特别反直觉的悖论：越贵的模型，可能反而总成本更低。因为强模型一次就做对了，弱模型可能要反复重试，中间如果出错就还需要人工介入，这也是综合成本。也就是说，虽然token价格在涨，但“每个有效结论的成本“反而在下降。

所以，最贵的GPT-5.5-pro和GPT-5.4-pro，短上下文Input是每百万token 30美元，Output token是每百万token 180美元，长上下文还要再贵一倍。但如果能力足够强，完成任务足够准确，在一些复杂任务和场景上，反而是能把开发者的成本价格给打下来的。

特别是在agent场景，因为agent不是一问一答，它会来回调用模型，每一步可能调用不同的工具，工具又会产生新的日志和上下文，返回给agent继续循环调用。

所以，不同的模型公司如何定价，一方面是由模型的推理成本以及大模型研发费用来决定的，但更关键的是按模型质量和任务完成度。

这里还有一派玩家，就是像微软Azure、亚马逊AWS或者国内的阿里和火山引擎这样的云厂商。有的企业是通过这些云厂商去调用模型，他们收到的token账单就是从云厂商这边给出的。

云厂商对token的收费与大模型公司的API官方收费不会相差太多，但有时候云厂商会因为提供了更多的服务和能力，比如说区域部署、特定数据驻留、企业合规、优先推理、托管能力，以及私有化或专用吞吐的这些服务，使得价格更贵。

这时候，token账单就是：模型token费+云服务封装+企业级基础设施溢价。

但有的时候，云厂商也会因为企业折扣，或者需要激进抢占市场，来让价格更便宜，这种情况也是有的。

而就在后OpenClaw时期，当硅谷开始卷我们开头说到的Token-maxxing这件事情的时候，大家发现，这个账单还是很可怕的。于是出现了一个现象：来自中国的开源模型，因为性价比，开始在国际开发者社区中，大受欢迎。

在一些任务上，中美模型的价差可以高达50-70倍。这就解释了为什么，当OpenClaw这类agent工具，让token消耗从万级跳到百万级的时候，全球开发者几乎本能地转向了中国的便宜模型。

03 登顶token调用排行榜——中国模型如何做到超高性价比

OpenClaw爆火之后，因为agent任务对开源模型调用的需求飙升，已经上市的中国模型厂商，比如说Zhipu AI和MiniMax在股价上迎来了疯狂的涨幅。

与此同时，2026年3月掀起了一波集体涨价潮。从阿里云到百度智能云，从智谱到腾讯云混元系列模型，几乎所有主要厂商，都在同一个月内宣布上调AI相关产品价格，涨幅从5%到400%不等。

对于个人开发者和创业公司来说，处理不那么复杂任务的时候，转向开源模型是无可厚非的。

拿MiniMax M2.5和Claude Opus 4.6做个直接对比：在SWE-Bench Verified软件工程基准测试中，两者得分分别是80.2%和80.8%，说实话，这点差距在实际使用中几乎感受不到。但打开价格表就完全不同了：MiniMax M2.5的输入价格是每百万token 0.3美元，Claude Opus 4.6是5美元。同样的活，前者的价格只有后者的十七分之一。对于一个每天要跑几千万token的OpenClaw用户来说，这不是省一杯咖啡钱的问题，而是账单从几百美元直接降到几十美元的区别。

那中国模型为什么能做到这么便宜？

不同的模型其实给了开发者们不同的选择，比如说复杂的任务就交给更高性能的模型，简单一些或者重复性高的任务就给便宜一点的模型，这样的混合使用，成为了agent时代的新token模式。

黄仁勋在GTC 2026上给出了一个更宏观的token定价框架。

他把token分成了五个价格区间：免费层（高吞吐、低交互速度，靠广告变现）、中级层（每百万token 3美元）、高级层（每百万token 6美元）、高速层（每百万token 45美元）到超高速层（每百万token 150美元）。黄仁勋的意思很明确，token不再是一种同质的商品，它的价格应该由交互速度和使用场景决定，就像电力有峰谷电价一样。

当然，这些暴增的需求背后，也有一个不容忽视的问题：到底是不是真的需要消耗这么多token？一些业内人士就批评说，当前全球企业级AI应用中，可能有近一半的token没有产生实际价值。

道理很简单，agent不像人类那样知道“够了就停”，它在执行一个任务的过程中，会反复读取整个对话历史、重新扫描已经处理过的文件、把早就过期的上下文一遍又一遍地喂进模型。每多跑一轮，这些冗余信息就像滚雪球一样越滚越大，但真正跟当前任务相关的，可能只占其中一小部分。

怎么让Agent少烧冤枉钱，正在成为一个新的技术和商业赛道。而Token Efficiency（Token效率）成为了下个阶段的关键词。其中值得提的一个例子，就是OpenRouter这家公司。

04 OpenRouter——从NFT到AI的“货架之王”

OpenRouter这个平台已经成了观察全球模型使用趋势的一面镜子。你看到的很多关于中国模型调用和排名的数据图都出自于这个平台。

OpenRouter背后的人很有意思，创始人Alex Atallah的上一个身份，是全球最大NFT交易所OpenSea的联合创始人兼CTO。

2023年，他开始做OpenRouter，这门生意的逻辑其实很简单：市面上模型越来越多，开发者不想每家单独注册、单独充值、单独对接API格式，OpenRouter就做了一个统一入口，所有模型一个接口搞定，平台从中抽取约5%的费用。，a16z在2025年对OpenRouter领投了4000万美元，当时估值约5亿美元，而最新一轮融资已将估值推至接近13亿美元。

让这门生意真正起飞的，是OpenClaw的爆发。当全球开发者疯狂调用各种模型来驱动Agent工作流时，他们需要一个能快速切换模型的中间层，而OpenRouter恰好就在那里等着，这个时机简直不要抓得太好。

Atallah曾将OpenRouter与他上一次创业做过类比，两次做的都是把分散的供给，整合到一个平台上。他赌的是：供给越分散，中间商越值钱。

当然，OpenRouter也有它的数据局限性。

换句话说，OpenRouter的数据，更像是创业公司和独立开发者群体的风向标，而不是整个AI行业的全景图。但正是这个群体，对价格最敏感、对新模型最愿意尝鲜、迁移成本最低，构成了中国模型出海的第一波“自来水“用户。

05 Metronome——谁在给Token“装电表”？

如果token是AI时代的“电”，那总得有人给这些电装电表。这件事听上去不够性感，但看一眼客户名单就知道它有多重要：OpenAI、NVIDIA、Anthropic、Databricks，全在用同一家公司的计费系统，这家公司就是Metronome。

Metronome创始团队的背景很说明问题，两位创始人都出自Dropbox，在那里亲身经历过一个让所有SaaS工程师头疼的事情：改定价。表面上只是把月费调几块钱，背后却要动一大堆写死在代码里的计费逻辑。

到了AI时代，这个痛点被放大了几个数量级，收费单位不再是“一个人头一个月多少钱”，而是变成了token数、API调用次数、GPU时长这些颗粒度极细的指标，而且每个客户的合同条款、折扣结构、用量阶梯可能都不一样。

Metronome做的事情，就是“清晰地记住谁在什么时间调用了什么东西，花了多少token。”但大部分公司自己做这件事做不好，因为“发生了什么“和“该怎么收费”，是两套完全不同的逻辑，把它们耦合在一起就会越改越脆弱。

Metronome的核心设计就是把这两件事彻底拆开，工程团队只管上报用量数据，产品和销售团队自己配置价格和合同条款，中间的换算、出账、对账全部自动化。

这家公司的发展速度很快。，Metronome累计融资约1.28亿美元，今年1月被Stripe收购。一个做计费基础设施的100人团队，估值追上了很多做模型的公司，这本身就说明，在token经济里，“怎么算钱”也变得越来越重要。

而在这样的一个产业中，“套利“的机会也出现了。

06 Token套利——当“中间商”开始赚差价

我们在前文中说到，现在开发者们会不同的模型混着用：复杂任务用Claude、GPT等昂贵模型，简单任务用MiniMax、kimi等中国的性价比模型。

而对应的，在token经济学里，一种新的商业模式正在浮出水面，业内叫它Token Arbitrage（Token套利）。

更进阶的套利方式不只是“批发转零售”，而是去搭建一个“智能路由器”，用户需求进来后，先用一个模型去判断任务的复杂程度，简单任务分配给便宜模型，只有真正复杂的任务才给Claude或GPT。对用户来说是黑盒，但中间商在不断优化成本结构。

知县也是一个典型的“混合调度“用户。他每天跟AI互动几百次，同时使用Claude、GPT和中国模型，但给它们分配了完全不同的角色。

Agent开发者Nathan从工程化实现上，帮我们解释了一下怎么做：

那问题来了：这种套利可持续吗？

但跨模型的调度空间远没有被穷尽。因为每家大模型公司只优化自己的模型。然而，市场上的模型太多了，跨模型的智能调度不会只是短期机会。

07 中国Token出海——结构性的产业机会？

讲到这里，我们可以把视角再拉大一点。想一想，当一个伦敦的程序员，用MiniMax的API跑OpenClaw的时候，物理层面发生了什么？

他的请求从英国出发，穿过海底光缆，落在贵州的数据中心里。GPU开始工作，风扇开始转，电表开始跳。几秒钟后，结果原路返回。整个过程中，没有一度电离开过中国的电网，但这度电的价值，已经通过API账单，以token的形式完成了跨境结算。

某种意义上，这是一种全新形态的“出口“对不对？

中国过去出口日用品、衬衫、家电，后来是电动车，但这些都是实物要过海关。Token出海不需要集装箱，甚至不需要任何实体商品离开国境。电力在本地消耗，算力在本地运转，但创造的价值通过互联网，瞬间交付到全球任何一个开发者手上。有人把这叫做“电力出海”，虽然电没出去，但电的价值出去了。

那么一个自然的问题是：中国token能卖这么便宜，很多人的第一反应是电价，这种状态会一直持续下去吗？实际情况还挺复杂。GMI Cloud创始人Alex在GTC现场给了我们一个很直率的判断：美国其实不缺电，缺的是输送能力。

实际上，中美电力成本的绝对值差异并不大，中国工业用电0.4-0.6元/度，美国0.8-1.2元/度，中美两边的工业电价差距其实没有想象中那么大，真正拉开差距的是基础设施的响应速度：中国可以在西部沙漠里铺满光伏板，再通过特高压电网把电送到东部的算力集群。

所以从电力角度看，美国的token价格一时半会很难降很多。同时，Alex认为，从存储等供应链角度看，token价格短期内更难下降。

这波出海红利，已经实实在在地反映在了收入上。如今MiniMax海外收入占比超过七成，月之暗面在Kimi K2.5发布后，短短数周内收入就超过了2025年全年，智谱的模型API收入也在今年出现了爆发式增长。而token需求的天花板目前根本还看不到。

大家想想看，现在大部分人还只是偶尔用用OpenClaw，大部分行业还远远没有被Agent渗透。但趋势已经很清楚了：token的消耗正在从“人类主动发起“变成“机器自动运转”。一个程序员手动用AI编程助手，一天可能烧几十万token。但一旦他配了一个Agent全天候在后台跑：写代码、查资料、跑测试、发部署，消耗量可以直接跳到千万级。当这种使用方式从少数极客扩散到普通开发者，再扩散到每一个知识工作者，token的需求增长就是指数级别的增长了。

如果用一句话来概括这个趋势：如果上一个时代中国出口的是衬衫和家电，这个时代是电动车，那下一个时代可能就是token。

回到开头的问题：token到底意味着什么？

对Meta员工来说，它是排行榜上的勋章。对创业公司来说，它是每个月最大的一笔开支。对OpenRouter来说，它是抽5%佣金的流水。对中国的云厂商来说，它是把电力变成美元的管道。对于黄仁勋来说，Token会变成大宗商品，每一个输入和输出都与芯片挂钩。

未来，Token就会是一种大宗商品。而围绕大宗商品，人类几千年来发明过的所有商业模式：期货、套利、批发零售、聚合平台、计量计费，都会在token身上重演一遍。同时，token定价的方式也可能会发生巨大的变化，比如说业界也正在开始尝试按“复杂度计费“的effort-based pricing模式，或者是按任务完成度计费的task-based pricing模式，这都使得token economy的定价方式在未来有着巨大的进化空间。这就像原油到汽油再到续航里程，这中间定价的逻辑，也会在token到任务到业务结果，这条进化路径上再复现一遍。

我们在这篇文章里看到的每一个概念和公司，从Token-maxxing到token套利，从OpenRouter到Metronome，本质上都是这个古老逻辑的AI升级版本。

唯一不同的是速度。这一切不是在几十年里慢慢展开的，而是在几个月内迅速发生的。当你读完这篇文章的时候，OpenRouter上可能又多了一个新模型冲上了榜单，某家云厂商可能又调了一次价，某个开发者可能又发现了一种新的省token的方法，而这场游戏才刚刚开始。

金、银、油——三大资产一次带走

200,000 USDT 奖池，100% 中奖！

免责声明: 本网站转载的文章均来源于公开平台，仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利，请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证，并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考，不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。