文章作者、来源：学术头条视觉-语言-动作（VLA）模型，在部署时往往会遇到一个问题：一旦相机视角、安装位置或机器人形态稍有变化，性能就可能会下降。以往的“上下文学习”（In-Context Learning )，通常把上下文当作示范，靠人工演示任务执行，机器人并不知道整套系统该如何运作。一旦部署环境改变，研究人员往文章作者、来源：学术头条视觉-语言-动作（VLA）模型，在部署时往往会遇到一个问题：一旦相机视角、安装位置或机器人形态稍有变化，性能就可能会下降。以往的“上下文学习”（In-Context Learning )，通常把上下文当作示范，靠人工演示任务执行，机器人并不知道整套系统该如何运作。一旦部署环境改变，研究人员往

复旦邱锡鹏团队提出「上下文世界建模」：无需微调，VLA即可适应新环境

来源：MetaEra

2026/07/01 07:31

阅读时长 9 分钟

如需对本内容提供反馈或相关疑问，请通过邮箱 [email protected] 联系我们。

文章作者、来源：学术头条

视觉-语言-动作（VLA）模型，在部署时往往会遇到一个问题：一旦相机视角、安装位置或机器人形态稍有变化，性能就可能会下降。

以往的“上下文学习”（In-Context Learning )，通常把上下文当作示范，靠人工演示任务执行，机器人并不知道整套系统该如何运作。一旦部署环境改变，研究人员往往只能重新收集数据、重新调模型，既费时也费力。

针对这一问题，复旦大学邱锡鹏教授团队提出了“上下文世界建模”（In-Context World Modeling，ICWM）。在任务执行前，机器人会进行一小段与任务无关的随机探测，再将交互过程作为上下文输入模型，以此判断整套系统如何运作。

论文链接：https://arxiv.org/abs/2606.26025

仿真和真实机器人实验表明，ICWM 整体表现显著优于现有方法。该方法只需少量随机探测，便能在无需额外示范和参数更新的情况下适应新环境，并提升跨视角与跨配置的泛化能力。

ICWM 是如何设计的？

与传统 VLA 模型相比，ICWM 会先根据交互上下文判断当前系统配置，再生成后续动作，无需重新示范或参数更新。具体流程可以分为训练和推理阶段：

训练阶段：研究团队会在每个任务样本前拼接一段与任务无关的交互片段，作为上下文输入。根据交互带来的画面变化，模型会判断当前系统的配置。ICWM 没有加入独立的世界模型，而是直接使用 VLA 主干来处理这段交互历史。这样既简化了结构，也能让信息能够直接用于动作预测。

推理阶段：机器人不会直接执行任务，而是先进行主动探测（active probing），记录动作前后的观测变化，形成交互上下文（interaction context）。随后，模型再把当前看到的上下文、画面和任务指令一起作为输入，判断接下来该怎么做。

图｜ICWM 的训练与推理流程概览。

实验结果

在实验阶段，研究团队进行了跨视角、真实机器人和多种分布外扰动实验。实验结果表明，ICWM 借助交互上下文提升了对新环境的适应能力，并展现出向语义变化和机器人形态变化等场景扩展的潜力。

1.仿真结果

研究团队先在LIBERO 仿真基准上做了跨视角实验。结果显示，ICWM 在已见和新视角下都优于基线。相比仅依赖多视角训练的方法，它在已见视角下平均高出 8.1 %，在新视角下平均高出 13.0 %。

即使把真实相机参数直接输入模型，模型的泛化表现仍不如 ICWM。在长时序任务上，ICWM 也能更好地控制累积误差。

图｜在 LIBERO 基准上，已见视角与未见视角的成功率（%）。

2.真实机器人实验

在UR5e 真实机器人平台上，ICWM 同样明显优于基线。研究团队使用一套 12 相机的多视角系统进行评估，任务覆盖堆叠、抓取和拾取、放置等操作。

结果显示，标准 VLA 对视角变化较为敏感，从训练视角切换到测试视角后，平均成功率会从 68% 降至 17%，ICWM 的稳定性则更强。

图｜在 UR5e 平台上的真实世界评测。

定性结果也显示，转换到新环境后，普通模型容易出现位置偏移、过早闭合夹爪等问题，ICWM 的表现则相对稳定。

图｜定性对比。

3.消融与分析

消融实验显示，ICWM 的性能提升来自交互上下文，而并非简单的模式匹配。

去掉图像信息后，模型表现下降最明显，平均成功率从 25.0% 降到 10.9%；去掉动作信息，或不提供交互上下文，模型表现也会下降。如果提供一段错误的上下文，模型表现甚至比没有上下文时更差。此外，对照实验也表明，模型只有经过专门训练，才能利用交互上下文适应环境；否则，即使在测试时提供同样的信息，性能也几乎为零。

图｜交互上下文消融实验。

从可视化结果看，模型已经能够区分不同视角和配置：相同视角下的数据分布更集中，不同视角之间的区分也更清晰。

图｜不同分布外（OOD）视角下的 Ψ(T) 的 t-SNE 可视化。

研究团队发现，ICWM 效果并不依赖某一种特定的探测方式。无论采用随机探测，还是仅沿 XY、Z 或旋转方向运动，ICWM 都稳定优于对照方法，成功率提升约 15% 至 27%。泛化实验也显示，ICWM 对机器人形态变化具有较强适应性，在语义扰动场景下同样有一定提升。

图｜分布外（OOD）视角下，不同探测策略的成功率（%）。

图｜对语义场景变化和机器人形态变化的鲁棒性。

不足与未来方向

尽管 ICWM 显著提升了VLA 在新环境中的适应能力，但研究团队也指出，该方法仍存在以下不足：

首先，在部分极端视角条件下，ICWM 的性能提升仍然有限。原因在于，这些视角往往伴随更严重的遮挡，操作目标在执行过程中也更容易短暂移出相机视野。未来，模型仍需结合多视角感知、主动视角调整以及更强的遮挡建模能力。

其次，在语义扰动实验中，ICWM 的提升仍较为有限。当前训练数据中的场景语义和组合配置还不够丰富。未来，若能进一步扩充场景语义、组合配置更丰富的训练数据，ICWM 在语义扰动场景中的表现则有望继续提升。

更多技术细节，详见原论文。

世界杯预测，一单串多场，搏200倍收益！

MEXC App 6.60.0 全新升级，巴西/法国/阿根廷等最多20场组合，一键轻松下注！

免责声明: 本网站转载的文章均来源于公开平台，仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利，请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证，并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考，不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。