文章作者、来源:学术头条 视觉-语言-动作(VLA)模型,在部署时往往会遇到一个问题:一旦相机视角、安装位置或机器人形态稍有变化,性能就可能会下降。 以往的“上下文学习”(In-Context Learning ),通常把上下文当作示范,靠人工演示任务执行,机器人并不知道整套系统该如何运作。一旦部署环境改变,研究人员往文章作者、来源:学术头条 视觉-语言-动作(VLA)模型,在部署时往往会遇到一个问题:一旦相机视角、安装位置或机器人形态稍有变化,性能就可能会下降。 以往的“上下文学习”(In-Context Learning ),通常把上下文当作示范,靠人工演示任务执行,机器人并不知道整套系统该如何运作。一旦部署环境改变,研究人员往

复旦邱锡鹏团队提出「上下文世界建模」:无需微调,VLA即可适应新环境

2026/07/01 07:31
阅读时长 9 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 [email protected] 联系我们。

文章作者、来源:学术头条

视觉-语言-动作(VLA)模型,在部署时往往会遇到一个问题:一旦相机视角、安装位置或机器人形态稍有变化,性能就可能会下降。

以往的“上下文学习”(In-Context Learning ),通常把上下文当作示范,靠人工演示任务执行,机器人并不知道整套系统该如何运作。一旦部署环境改变,研究人员往往只能重新收集数据、重新调模型,既费时也费力。

针对这一问题,复旦大学邱锡鹏教授团队提出了“上下文世界建模”(In-Context World Modeling,ICWM)。在任务执行前,机器人会进行一小段与任务无关的随机探测,再将交互过程作为上下文输入模型,以此判断整套系统如何运作。

论文链接:https://arxiv.org/abs/2606.26025

仿真和真实机器人实验表明,ICWM 整体表现显著优于现有方法。该方法只需少量随机探测,便能在无需额外示范和参数更新的情况下适应新环境,并提升跨视角与跨配置的泛化能力。

ICWM 是如何设计的?

与传统 VLA 模型相比,ICWM 会先根据交互上下文判断当前系统配置,再生成后续动作,无需重新示范或参数更新。具体流程可以分为训练和推理阶段:

训练阶段:研究团队会在每个任务样本前拼接一段与任务无关的交互片段,作为上下文输入。根据交互带来的画面变化,模型会判断当前系统的配置。ICWM 没有加入独立的世界模型,而是直接使用 VLA 主干来处理这段交互历史。这样既简化了结构,也能让信息能够直接用于动作预测。

推理阶段:机器人不会直接执行任务,而是先进行主动探测(active probing),记录动作前后的观测变化,形成交互上下文(interaction context)。随后,模型再把当前看到的上下文、画面和任务指令一起作为输入,判断接下来该怎么做。

图|ICWM 的训练与推理流程概览。

实验结果

在实验阶段,研究团队进行了跨视角、真实机器人和多种分布外扰动实验。实验结果表明,ICWM 借助交互上下文提升了对新环境的适应能力,并展现出向语义变化和机器人形态变化等场景扩展的潜力。

1.仿真结果

研究团队先在LIBERO 仿真基准上做了跨视角实验。结果显示,ICWM 在已见和新视角下都优于基线。相比仅依赖多视角训练的方法,它在已见视角下平均高出 8.1 %,在新视角下平均高出 13.0 %。

即使把真实相机参数直接输入模型,模型的泛化表现仍不如 ICWM。在长时序任务上,ICWM 也能更好地控制累积误差。

图|在 LIBERO 基准上,已见视角与未见视角的成功率(%)。

2.真实机器人实验

UR5e 真实机器人平台上,ICWM 同样明显优于基线。研究团队使用一套 12 相机的多视角系统进行评估,任务覆盖堆叠、抓取和拾取、放置等操作。

结果显示,标准 VLA 对视角变化较为敏感,从训练视角切换到测试视角后,平均成功率会从 68% 降至 17%,ICWM 的稳定性则更强。

图|在 UR5e 平台上的真实世界评测。

定性结果也显示,转换到新环境后,普通模型容易出现位置偏移、过早闭合夹爪等问题,ICWM 的表现则相对稳定。

图|定性对比。

3.消融与分析

消融实验显示,ICWM 的性能提升来自交互上下文,而并非简单的模式匹配。

去掉图像信息后,模型表现下降最明显,平均成功率从 25.0% 降到 10.9%;去掉动作信息,或不提供交互上下文,模型表现也会下降。如果提供一段错误的上下文,模型表现甚至比没有上下文时更差。此外,对照实验也表明,模型只有经过专门训练,才能利用交互上下文适应环境;否则,即使在测试时提供同样的信息,性能也几乎为零。

图|交互上下文消融实验。

可视化结果看,模型已经能够区分不同视角和配置:相同视角下的数据分布更集中,不同视角之间的区分也更清晰

图|不同分布外(OOD)视角下的 Ψ(T) 的 t-SNE 可视化。

研究团队发现,ICWM 效果并不依赖某一种特定的探测方式。无论采用随机探测,还是仅沿 XY、Z 或旋转方向运动,ICWM 都稳定优于对照方法,成功率提升约 15% 至 27%。泛化实验也显示,ICWM 对机器人形态变化具有较强适应性,在语义扰动场景下同样有一定提升。

图|分布外(OOD)视角下,不同探测策略的成功率(%)。

图|对语义场景变化和机器人形态变化的鲁棒性。

不足与未来方向

尽管 ICWM 显著提升了VLA 在新环境中的适应能力,但研究团队也指出,该方法仍存在以下不足:

首先,在部分极端视角条件下,ICWM 的性能提升仍然有限。原因在于,这些视角往往伴随更严重的遮挡,操作目标在执行过程中也更容易短暂移出相机视野。未来,模型仍需结合多视角感知、主动视角调整以及更强的遮挡建模能力

其次,在语义扰动实验中,ICWM 的提升仍较为有限。当前训练数据中的场景语义和组合配置还不够丰富。未来,若能进一步扩充场景语义、组合配置更丰富的训练数据,ICWM 在语义扰动场景中的表现则有望继续提升。

更多技术细节,详见原论文。

世界杯预测,一单串多场,搏200倍收益!

世界杯预测,一单串多场,搏200倍收益!世界杯预测,一单串多场,搏200倍收益!

MEXC App 6.60.0 全新升级,巴西/法国/阿根廷等最多20场组合,一键轻松下注!

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

您可能也会喜欢