文章作者、来源:硅谷101 在硅谷,有了一种新的炫富方式——每天烧了多少token。 对于这个炫富方式,现在有一个新词叫:Token-maxxing,意思是“把token用量拉到极限”。它变成了公司内外人们攀比的新方式:你每天消耗多少token、你能同时调度多少个agent运行、你的token throughput(吞文章作者、来源:硅谷101 在硅谷,有了一种新的炫富方式——每天烧了多少token。 对于这个炫富方式,现在有一个新词叫:Token-maxxing,意思是“把token用量拉到极限”。它变成了公司内外人们攀比的新方式:你每天消耗多少token、你能同时调度多少个agent运行、你的token throughput(吞

Token经济学:AI时代的新货币战争

2026/05/14 11:22
阅读时长 33 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 [email protected] 联系我们。

文章作者、来源:硅谷101

在硅谷,有了一种新的炫富方式——每天烧了多少token。

对于这个炫富方式,现在有一个新词叫:Token-maxxing,意思是“把token用量拉到极限”。它变成了公司内外人们攀比的新方式:你每天消耗多少token、你能同时调度多少个agent运行、你的token throughput(吞吐量)有多高,这些都正在变成衡量一个人“有多AI原生”的新指标。

不过,对于这种新竞赛,全球AI圈巨头们正在进行着一场激烈的辩论:公司是否应该不设限制地鼓励员工们去使用token?

而在这场辩论的背后,是一场围绕token展开的新军备竞赛。硅谷大厂们为什么在疯狂卷token用量,这背后到底有没有道理?大模型公司是怎么给token定价的?中国模型如何凭借“物美价廉”杀入全球开发者市场,在OpenRouter上霸榜?“Token套利“的新模式,怎么来赚差价?以及在所有这些背后,一个更大的问题:中国的token出海,会不会成为下一个结构性的产业机会?如果上一个时代中国出口的是衬衫,这个时代是电动车,下一个时代会是token吗?

01 Token-maxxing之辩——用得越多就越好吗?

4月初,Meta被爆内部有一个名为“Claudeonomics“排行榜,这个排行榜汇集了超过85000名Meta员工的AI使用数据,列出了token消耗量最高的前250名“超级用户”。

在最近一个月,排行榜上的总使用量突破了60万亿token,如果按照Anthropic Opus 4.6的定价,大约每百万token平均15美元来粗略换算的话,这些token的价值高达约9亿美元。排名第一的那位员工,烧掉的token价值高达数百万美元。

这个消息曝光之后立马在硅谷引发了一场大辩论。

AI创业公司Writer的CEO May Habib,直接说这是“生死存亡级别的问题”。她自己公司内部也有一个token消耗排行榜,而且她明确告诉员工,她本人在盯这个数据。她认为如果不全力拥抱AI,就会被淘汰。

Uber也很激进。目前Uber后端系统中,11%的新代码更新已经由agent完成,而三个月前这个比例还不到1%。Uber CTO的原话很直白:“我的愿景是把软件工程转型为agent软件工程。”

但反对Token-maxxing的声音同样尖锐。

HubSpot的CEO Yamini Rangan,在LinkedIn上发了一句被广泛转发的话:“Outcome maxxing>>token maxxing”。意思是,比起疯狂消耗token,不如看看你产出了什么结果。她代表了另一种重要观点:纯粹的token使用量,是一个错误的指标。

AI软件工程公司Jellyfish的CEO Andrew Lau,说得更直白:“你可以一天到晚刷token,但得到的结果可能完全不是你想要的。”

这两派的吵得不可开交。但更多的中间派似乎还是形成了共识:不充分利用AI的公司,会被竞争对手超越并变得过时。在这种信念下,哪怕排行榜和激励制度不完美,哪怕一些AI使用最终被证明是浪费的,大厂创始人和高层们也被卷起来了,认为必须要这样做才能让公司转型成为更AI-native(AI原生)的公司。

自OpenClaw爆火以来,agent任务烧掉的token量直线上升。科技巨头们可以不顾成本的烧token,但对于创业公司和个人开发者来说,token的成本带来的是焦虑。

Uber的CTO在接受采访时透露,公司2026年的AI预算在开年几个月内就已经全部用完了,主要是因为工程师们对Claude Code的使用量暴增。他的原话是:“我得重新回去做预算了,因为我以为够用一年的钱,已经没了。”

硅谷知名投资人Chamath Palihapitiya最近也公开抱怨,他投资的一家软件公司自从团队开始用AI编程工具后,运营成本在几个月内翻了三倍多,照这个趋势年化AI支出将达到千万美元级别。他半开玩笑地说了一句在社交媒体上广为流传的话:感谢VC们掏钱为这场AI盛宴买单。

可以看到,对于企业来说,特别是软件SaaS行业,AI时代的成本结构跟过去完全不一样了。以前做一个SaaS产品,研发投入是一次性的,用户越多边际成本越低,这是一门越卖越赚的生意。但现在,每个用户的每一次操作背后都有一笔token账单在跑,用户用得越深、功能越智能,作为产品方,反而要付更多钱给模型厂商。这个成本不会像传统软件那样摊薄到接近零,它是跟着用量线性增长的。

这也是为什么token正在变成AI创业公司最核心的“弹药”,也有风投基金开始尝试直接给被投企业提供token额度,作为投资的一部分。这个逻辑很简单:对很多AI创业项目来说,拿到钱之后第一件事就是去买token,那为什么不直接给token呢?

顺着这个逻辑来讲,是不是token正在变成一种新的货币?那token又到底是如何定价的呢?

02 拆解Token账单——大模型公司到底怎么算钱?

Token的定价是怎么算的?这个问题的答案,远不是“一个单价乘以数量“这么简单。我们以一次最简单的对话交互为例,你的账单上至少有三种不同价格的token在运转:

第一是Input token(输入token),也就是你发给模型的内容。

第二是Cached input token(被缓存的输入 token),意思是如果某些prompt、上下文或文件内容之前已经被模型系统缓存过,再次调用时,这部分token的价格会更便宜。

第三是Output token(输出token),也就是模型生成回答时产生的token。

研究芯片与token efficiency(词元效率)方向的肖志斌在接受硅谷101采访时就说,平均来说,在对话任务上,这三者的价格大概是:1:0.1:6的水平。

不同公司根据模型的能力给出的定价是不同的。举个例子,GPT-5的API价格上,Input是每百万token 1.25美元,Cached input是每百万token 0.125美元,Output token是每百万token 10美元。

而OpenAI发布的最新模型GPT-5.5,分了长短上下文两档,长上下文的价格是2倍。短上下文Input是每百万token 5美元,Cached input是每百万token 0.5美元,Output token是每百万token 30美元。

如果直接对比价格的话,是不是觉得涨价了好几倍,其实不能这么算。

这里面有一个特别反直觉的悖论:越贵的模型,可能反而总成本更低。因为强模型一次就做对了,弱模型可能要反复重试,中间如果出错就还需要人工介入,这也是综合成本。也就是说,虽然token价格在涨,但“每个有效结论的成本“反而在下降。

所以,最贵的GPT-5.5-pro和GPT-5.4-pro,短上下文Input是每百万token 30美元,Output token是每百万token 180美元,长上下文还要再贵一倍。但如果能力足够强,完成任务足够准确,在一些复杂任务和场景上,反而是能把开发者的成本价格给打下来的。

特别是在agent场景,因为agent不是一问一答,它会来回调用模型,每一步可能调用不同的工具,工具又会产生新的日志和上下文,返回给agent继续循环调用。

所以,不同的模型公司如何定价,一方面是由模型的推理成本以及大模型研发费用来决定的,但更关键的是按模型质量和任务完成度。

这里还有一派玩家,就是像微软Azure、亚马逊AWS或者国内的阿里和火山引擎这样的云厂商。有的企业是通过这些云厂商去调用模型,他们收到的token账单就是从云厂商这边给出的。

云厂商对token的收费与大模型公司的API官方收费不会相差太多,但有时候云厂商会因为提供了更多的服务和能力,比如说区域部署、特定数据驻留、企业合规、优先推理、托管能力,以及私有化或专用吞吐的这些服务,使得价格更贵。

这时候,token账单就是:模型token费+云服务封装+企业级基础设施溢价。

但有的时候,云厂商也会因为企业折扣,或者需要激进抢占市场,来让价格更便宜,这种情况也是有的。

而就在后OpenClaw时期,当硅谷开始卷我们开头说到的Token-maxxing这件事情的时候,大家发现,这个账单还是很可怕的。于是出现了一个现象:来自中国的开源模型,因为性价比,开始在国际开发者社区中,大受欢迎。

在一些任务上,中美模型的价差可以高达50-70倍。这就解释了为什么,当OpenClaw这类agent工具,让token消耗从万级跳到百万级的时候,全球开发者几乎本能地转向了中国的便宜模型。

03 登顶token调用排行榜——中国模型如何做到超高性价比

OpenClaw爆火之后,因为agent任务对开源模型调用的需求飙升,已经上市的中国模型厂商,比如说Zhipu AI和MiniMax在股价上迎来了疯狂的涨幅。

与此同时,2026年3月掀起了一波集体涨价潮。从阿里云到百度智能云,从智谱到腾讯云混元系列模型,几乎所有主要厂商,都在同一个月内宣布上调AI相关产品价格,涨幅从5%到400%不等。

对于个人开发者和创业公司来说,处理不那么复杂任务的时候,转向开源模型是无可厚非的。

拿MiniMax M2.5和Claude Opus 4.6做个直接对比:在SWE-Bench Verified软件工程基准测试中,两者得分分别是80.2%和80.8%,说实话,这点差距在实际使用中几乎感受不到。但打开价格表就完全不同了:MiniMax M2.5的输入价格是每百万token 0.3美元,Claude Opus 4.6是5美元。同样的活,前者的价格只有后者的十七分之一。对于一个每天要跑几千万token的OpenClaw用户来说,这不是省一杯咖啡钱的问题,而是账单从几百美元直接降到几十美元的区别。

那中国模型为什么能做到这么便宜?

不同的模型其实给了开发者们不同的选择,比如说复杂的任务就交给更高性能的模型,简单一些或者重复性高的任务就给便宜一点的模型,这样的混合使用,成为了agent时代的新token模式。

黄仁勋在GTC 2026上给出了一个更宏观的token定价框架。

他把token分成了五个价格区间:免费层(高吞吐、低交互速度,靠广告变现)、中级层(每百万token 3美元)、高级层(每百万token 6美元)、高速层(每百万token 45美元)到超高速层(每百万token 150美元)。黄仁勋的意思很明确,token不再是一种同质的商品,它的价格应该由交互速度和使用场景决定,就像电力有峰谷电价一样。

当然,这些暴增的需求背后,也有一个不容忽视的问题:到底是不是真的需要消耗这么多token?一些业内人士就批评说,当前全球企业级AI应用中,可能有近一半的token没有产生实际价值。

道理很简单,agent不像人类那样知道“够了就停”,它在执行一个任务的过程中,会反复读取整个对话历史、重新扫描已经处理过的文件、把早就过期的上下文一遍又一遍地喂进模型。每多跑一轮,这些冗余信息就像滚雪球一样越滚越大,但真正跟当前任务相关的,可能只占其中一小部分。

怎么让Agent少烧冤枉钱,正在成为一个新的技术和商业赛道。而Token Efficiency(Token效率)成为了下个阶段的关键词。其中值得提的一个例子,就是OpenRouter这家公司。

04 OpenRouter——从NFT到AI的“货架之王”

OpenRouter这个平台已经成了观察全球模型使用趋势的一面镜子。你看到的很多关于中国模型调用和排名的数据图都出自于这个平台。

OpenRouter背后的人很有意思,创始人Alex Atallah的上一个身份,是全球最大NFT交易所OpenSea的联合创始人兼CTO。

2023年,他开始做OpenRouter,这门生意的逻辑其实很简单:市面上模型越来越多,开发者不想每家单独注册、单独充值、单独对接API格式,OpenRouter就做了一个统一入口,所有模型一个接口搞定,平台从中抽取约5%的费用。,a16z在2025年对OpenRouter领投了4000万美元,当时估值约5亿美元,而最新一轮融资已将估值推至接近13亿美元。

让这门生意真正起飞的,是OpenClaw的爆发。当全球开发者疯狂调用各种模型来驱动Agent工作流时,他们需要一个能快速切换模型的中间层,而OpenRouter恰好就在那里等着,这个时机简直不要抓得太好。

Atallah曾将OpenRouter与他上一次创业做过类比,两次做的都是把分散的供给,整合到一个平台上。他赌的是:供给越分散,中间商越值钱。

当然,OpenRouter也有它的数据局限性。

换句话说,OpenRouter的数据,更像是创业公司和独立开发者群体的风向标,而不是整个AI行业的全景图。但正是这个群体,对价格最敏感、对新模型最愿意尝鲜、迁移成本最低,构成了中国模型出海的第一波“自来水“用户。

05 Metronome——谁在给Token“装电表”?

如果token是AI时代的“电”,那总得有人给这些电装电表。这件事听上去不够性感,但看一眼客户名单就知道它有多重要:OpenAI、NVIDIA、Anthropic、Databricks,全在用同一家公司的计费系统,这家公司就是Metronome。

Metronome创始团队的背景很说明问题,两位创始人都出自Dropbox,在那里亲身经历过一个让所有SaaS工程师头疼的事情:改定价。表面上只是把月费调几块钱,背后却要动一大堆写死在代码里的计费逻辑。

到了AI时代,这个痛点被放大了几个数量级,收费单位不再是“一个人头一个月多少钱”,而是变成了token数、API调用次数、GPU时长这些颗粒度极细的指标,而且每个客户的合同条款、折扣结构、用量阶梯可能都不一样。

Metronome做的事情,就是“清晰地记住谁在什么时间调用了什么东西,花了多少token。”但大部分公司自己做这件事做不好,因为“发生了什么“和“该怎么收费”,是两套完全不同的逻辑,把它们耦合在一起就会越改越脆弱。

Metronome的核心设计就是把这两件事彻底拆开,工程团队只管上报用量数据,产品和销售团队自己配置价格和合同条款,中间的换算、出账、对账全部自动化。

这家公司的发展速度很快。,Metronome累计融资约1.28亿美元,今年1月被Stripe收购。一个做计费基础设施的100人团队,估值追上了很多做模型的公司,这本身就说明,在token经济里,“怎么算钱”也变得越来越重要。

而在这样的一个产业中,“套利“的机会也出现了。

06 Token套利——当“中间商”开始赚差价

我们在前文中说到,现在开发者们会不同的模型混着用:复杂任务用Claude、GPT等昂贵模型,简单任务用MiniMax、kimi等中国的性价比模型。

而对应的,在token经济学里,一种新的商业模式正在浮出水面,业内叫它Token Arbitrage(Token套利)。

更进阶的套利方式不只是“批发转零售”,而是去搭建一个“智能路由器”,用户需求进来后,先用一个模型去判断任务的复杂程度,简单任务分配给便宜模型,只有真正复杂的任务才给Claude或GPT。对用户来说是黑盒,但中间商在不断优化成本结构。

知县也是一个典型的“混合调度“用户。他每天跟AI互动几百次,同时使用Claude、GPT和中国模型,但给它们分配了完全不同的角色。

Agent开发者Nathan从工程化实现上,帮我们解释了一下怎么做:

那问题来了:这种套利可持续吗?

但跨模型的调度空间远没有被穷尽。因为每家大模型公司只优化自己的模型。然而,市场上的模型太多了,跨模型的智能调度不会只是短期机会。

07 中国Token出海——结构性的产业机会?

讲到这里,我们可以把视角再拉大一点。想一想,当一个伦敦的程序员,用MiniMax的API跑OpenClaw的时候,物理层面发生了什么?

他的请求从英国出发,穿过海底光缆,落在贵州的数据中心里。GPU开始工作,风扇开始转,电表开始跳。几秒钟后,结果原路返回。整个过程中,没有一度电离开过中国的电网,但这度电的价值,已经通过API账单,以token的形式完成了跨境结算。

某种意义上,这是一种全新形态的“出口“对不对?

中国过去出口日用品、衬衫、家电,后来是电动车,但这些都是实物要过海关。Token出海不需要集装箱,甚至不需要任何实体商品离开国境。电力在本地消耗,算力在本地运转,但创造的价值通过互联网,瞬间交付到全球任何一个开发者手上。有人把这叫做“电力出海”,虽然电没出去,但电的价值出去了。

那么一个自然的问题是:中国token能卖这么便宜,很多人的第一反应是电价,这种状态会一直持续下去吗?实际情况还挺复杂。GMI Cloud创始人Alex在GTC现场给了我们一个很直率的判断:美国其实不缺电,缺的是输送能力。

实际上,中美电力成本的绝对值差异并不大,中国工业用电0.4-0.6元/度,美国0.8-1.2元/度,中美两边的工业电价差距其实没有想象中那么大,真正拉开差距的是基础设施的响应速度:中国可以在西部沙漠里铺满光伏板,再通过特高压电网把电送到东部的算力集群。

所以从电力角度看,美国的token价格一时半会很难降很多。同时,Alex认为,从存储等供应链角度看,token价格短期内更难下降。

这波出海红利,已经实实在在地反映在了收入上。如今MiniMax海外收入占比超过七成,月之暗面在Kimi K2.5发布后,短短数周内收入就超过了2025年全年,智谱的模型API收入也在今年出现了爆发式增长。而token需求的天花板目前根本还看不到。

大家想想看,现在大部分人还只是偶尔用用OpenClaw,大部分行业还远远没有被Agent渗透。但趋势已经很清楚了:token的消耗正在从“人类主动发起“变成“机器自动运转”。一个程序员手动用AI编程助手,一天可能烧几十万token。但一旦他配了一个Agent全天候在后台跑:写代码、查资料、跑测试、发部署,消耗量可以直接跳到千万级。当这种使用方式从少数极客扩散到普通开发者,再扩散到每一个知识工作者,token的需求增长就是指数级别的增长了。

如果用一句话来概括这个趋势:如果上一个时代中国出口的是衬衫和家电,这个时代是电动车,那下一个时代可能就是token。

回到开头的问题:token到底意味着什么?

对Meta员工来说,它是排行榜上的勋章。对创业公司来说,它是每个月最大的一笔开支。对OpenRouter来说,它是抽5%佣金的流水。对中国的云厂商来说,它是把电力变成美元的管道。对于黄仁勋来说,Token会变成大宗商品,每一个输入和输出都与芯片挂钩。

未来,Token就会是一种大宗商品。而围绕大宗商品,人类几千年来发明过的所有商业模式:期货、套利、批发零售、聚合平台、计量计费,都会在token身上重演一遍。同时,token定价的方式也可能会发生巨大的变化,比如说业界也正在开始尝试按“复杂度计费“的effort-based pricing模式,或者是按任务完成度计费的task-based pricing模式,这都使得token economy的定价方式在未来有着巨大的进化空间。这就像原油到汽油再到续航里程,这中间定价的逻辑,也会在token到任务到业务结果,这条进化路径上再复现一遍。

我们在这篇文章里看到的每一个概念和公司,从Token-maxxing到token套利,从OpenRouter到Metronome,本质上都是这个古老逻辑的AI升级版本。

唯一不同的是速度。这一切不是在几十年里慢慢展开的,而是在几个月内迅速发生的。当你读完这篇文章的时候,OpenRouter上可能又多了一个新模型冲上了榜单,某家云厂商可能又调了一次价,某个开发者可能又发现了一种新的省token的方法,而这场游戏才刚刚开始。

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

KAIO全球首发

KAIO全球首发KAIO全球首发

0手续费交易KAIO,抢跑30万亿美元RWA市场