文章作者、来源：宇航猿关于 AI 烧钱，业内流传着各种令人瞠目结舌的数字。xAI 花了超过 10 亿美元建起 Colossus 超算集群；OpenAI 的月度算力账单据称高达数亿美元；Anthropic 最近几轮融资拿到的钱，在公众眼里几乎已经和「GPU 时数」直接画上了等号。大家谈的，几乎都是算力。GPU 成了文章作者、来源：宇航猿关于 AI 烧钱，业内流传着各种令人瞠目结舌的数字。xAI 花了超过 10 亿美元建起 Colossus 超算集群；OpenAI 的月度算力账单据称高达数亿美元；Anthropic 最近几轮融资拿到的钱，在公众眼里几乎已经和「GPU 时数」直接画上了等号。大家谈的，几乎都是算力。GPU 成了

视频模型巨大的「隐形成本」，没人告诉你

来源：MetaEra

2026/06/06 22:43

阅读时长 13 分钟

GPU$0.01089+1.02%

XAI$0.007638-1.98%

AI$0.02225-11.35%

如需对本内容提供反馈或相关疑问，请通过邮箱 [email protected] 联系我们。

文章作者、来源：宇航猿

关于 AI 烧钱，业内流传着各种令人瞠目结舌的数字。xAI 花了超过 10 亿美元建起 Colossus 超算集群；OpenAI 的月度算力账单据称高达数亿美元；Anthropic 最近几轮融资拿到的钱，在公众眼里几乎已经和「GPU 时数」直接画上了等号。

大家谈的，几乎都是算力。GPU 成了衡量一家 AI 公司实力的通用货币，也是每一篇融资报道里最显眼的那个数字。

但最近，我听了一期 Latent Space 播客，采访对象是 xAI 前研究员 Ethan He——Ethan 在 2025 年中加入 xAI 时，面对的是一个没有基础设施、没有数据、没有现成模型的白纸状态，然后用三个月时间和一支小团队，从零搭建出了 Grok Imagine 视频生成系统，做到了当时业内的一流水准。

在聊到大规模视频模型的训练成本时，他说了一组数字，让我突然意识到，这个行业可能一直在算错了账。

「 光是存储这些视频和特征数据，每个月就要几百万美元——这还没算算力成本 。」

账单上的隐藏成本

从零到一，开始训练一个视频大模型，需要花多少钱？先假设你的团队有矿，GPU 算力随便用。即便如此，你可能依然低估了这件事的巨量成本。

假设你要训练一个世界级的视频生成模型，去网上爬取了 10 亿条视频，每条平均 5MB——这已经是相当保守的估计了。光这一项，你就需要 5PB（拍字节）的存储空间。按照 AWS S3 的定价，5PB 标准存储，每个月大约 10 万美元。

但这还只是原始视频。

在训练视频模型之前，业界通行的做法是先用 VAE（变分自编码器）把视频压缩成「潜在空间」的特征向量——因为一段视频展开成像素，可能有几十亿个 token，任何 Transformer 都处理不了，必须先压缩成模型能理解的连续向量。

问题是，这份压缩后的特征数据，体积和原始视频相当，同样需要长期存储，随时备用。

两项叠加，数十 PB， 每月存储费就超过 20 万美元 。

然后是最出乎意料的那一项：数据进出费（egress/ingress）。

Ethan 说， 从互联网下载 10 亿条视频的带宽费用，在 AWS 上比存储这些视频还贵 。每次训练，数据都要从存储层拉到计算层跑一遍。视频模型的训练不像语言模型那样训完就完了——要迭代，要调参，要测试不同的数据配比，每一次实验都意味着把全量数据再过一遍。实验跑得越多，这笔钱就乘以相应的倍数。

综合算下来，Ethan 的估算是， 光是数据这一块，每个月就要几百万美元 。GPU 的费用，还没开始计入。

这笔账，我从来没见哪篇 AI 行业报道细算过。

扛不住的带宽费

那像 xAI 这样自建 Colossus 数据中心的公司，是不是在存储和带宽上省了一大笔钱？

Ethan 的回答很直接：「当然，省了很多。」

这句话背后，藏着视频 AI 行业一个不太被讨论的结构性秘密。

大语言模型的训练数据是文本，体积相对轻量，而且训练完成之后，原始数据基本就完成了使命——你不需要反复拉取全量语料来做推理或微调。但视频数据完全不同： 体积是文本的几个数量级，而且每一次训练实验都要把全量数据完整过一遍 。

迭代速度越快，数据搬运的成本就越高；而 Ethan 反复强调， 迭代速度，恰恰是视频模型研发中最关键的变量 。

这就形成了一个相互咬合的困局：你需要快速迭代来提升模型质量，但快速迭代意味着频繁搬运数据，而频繁搬运数据在公有云上的账单会把你压垮。

Ethan 本人的轨迹就是一个注脚。他在 NVIDIA 参与构建了 Cosmos 世界模型，做着做着意识到，视频模型存在和语言模型类似的「规模定律」，还有很大的提升空间。他当时面临的选择，表面看是「我需要更多 GPU」，但同样关键的一句话他没明说—— 他需要一个不用按 AWS 账单算钱的地方，来存放和搬运数据 。这也是他去 xAI 的根本原因之一，而 Colossus 给了他那个环境。

对于没有自建基础设施的团队来说，这笔账是怎么算的？每个月几百万美元的数据成本，叠加在 GPU 算力之上，意味着哪怕你有一流的算法团队，哪怕你募到了足够的资金，只要你还在用公有云，你就是在用一个无底洞的账单跟对手的自建机房赛跑。

这道门槛，不是一家有优秀算法的创业公司能靠「技术取胜」跨过去的。

视频模型的护城河不是模型

这让我想起一个有趣的对比。

在大语言模型领域，「开源 vs 闭源」的竞争打得相当激烈，Llama 系列的出现让很多小团队也能在语言模型上打出有竞争力的产品，甚至逼着 OpenAI 和 Anthropic 不断压低 API 价格。但在视频生成领域，我们看到的格局截然不同：能持续做出顶尖视频模型的，基本只有 Sora、Veo、可灵这些背靠巨量资源的团队，没有一家是靠开源社区在车库里跑出来的。

很多人把这归结为「数据和算力的差距」。这当然没错，但 Ethan 揭示的这组数字告诉我们，问题比这更深： 视频 AI 的基础设施成本，从一开始就把竞争的门槛，锁死在了极少数玩家的高度上。

这和半导体行业的逻辑有几分相似。台积电之所以难以撼动，不只因为它们有更好的设计，更因为一座新晶圆厂需要几百亿美元的前期投入，这道门槛本身就是最好的护城河。视频 AI 的护城河，就是那数十 PB 的数据基础设施和每月滚动产生的带宽账单。

Ethan 在播客里还补充了一个更深的推论： 视频模型的「智能」，大部分其实来自背后的语言模型，而不是视频扩散模型本身 。

视频扩散模型相对「愚钝」，它只会按照文字描述照单全收地生成画面，描述写「一只猫」，它就生成一只猫，站在纯白背景前，纹丝不动——因为你没有告诉它背景是什么、猫在做什么。

真正理解用户意图、把「一只猫」扩写成一段精细的镜头语言描述的，是背后那个做「提示词重写」的大型语言模型。Ethan 说，在 Cosmos 时期，他曾经用一个「快乐的羊」做测试：不经过提示词重写，生成出来的画面极其 CGI、毫无质感；加上重写之后，效果判若云泥——而整个视频扩散模型本身，并没有发生任何改变。

这意味着，决定一家公司在视频 AI 领域能走多远的，不只是视频模型的参数规模，而是能否同时撑起语言模型和视频模型这两套基础设施，并让它们有效协同。

这是一场拼综合体力的竞赛。

下一个战场，早就被划好了

当然，行业也在摸索出路。

提示词重写的 Agent 化、让语言模型像「指挥官」一样调度多个视频生成工具、用 FFmpeg 这类传统软件处理中间环节——这些方向的共同逻辑是，把「语言模型的推理成本」和「视频扩散模型的生成成本」分层计算，让每一次视频生成的调用更加精准，减少无效的计算和数据搬运。

Ethan 对「视频 Agent」的走向相当笃定。他预测今年年底将出现一个拐点——当 Agent 生成的视频质量能够稳定达到「可投放商业广告」的水准，企业才会真正愿意为之买单，整体的成本结构也会随之演变。

但有一点不会变： 谁掌握了数据的存储和流转，谁就掌握了这场游戏的起点。

在 AI 这个赛道上，「真正的壁垒」每隔一段时间就会轮换一次。先是参数量，然后是训练数据规模，然后是对齐技术，然后是推理效率。现在，视频 AI 正在揭示下一道壁垒——不是某种神秘的算法突破，而是一份冷冰冰的基础设施账单。

这笔账，从一开始就没打算让所有人都算得起。

*头图来源： iMini AI

市场机遇

NodeAI实时价格 (GPU)

$0.01089

$0.01089$0.01089

-0.09%

USD

NodeAI (GPU) 实时价格图表

完成预测交易，解锁大奖资格

奖池高达 $500,000，100% 中奖！

免责声明: 本网站转载的文章均来源于公开平台，仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利，请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证，并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考，不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。