Pure Vision Language Action (VLA) Models: A Comprehensive Survey

比较新的综述,2025年9月25日发的

写了不整理相当于没写。

这篇文章里面好多分类错误的东西:P,别全信,可以提供思路

ok没读完也不许再看了,现在没空

vla的终极目标是通用的具身智能 这篇论文从动作实现把vla分成以下四类: 基于自回归的建模、基于扩散的方法、强化学习策略以及混合或专业设计

为什么fig3把pi0.5放在autoregression based里面?

autoregression-based

通过将动作序列视为时间依赖的过程,这些模型根据先前的上下文、感知输入和任务提示逐步生成动作 代表工作openvla,rt-1,worldvla 再次分类:

这四个分类是横向的,然后内部在创新性上纵向发展。 Generalist: 核心目标:统一模态、统一表示、统一输出机制。- 语言信息(比如指令 prompt)主要作为条件输入(conditioning input),帮助模型理解任务,但不会主动“推理”。 推理和语义规划:核心目标:引入语言模型的推理能力,使模型不仅能“模仿动作序列”,还能“思考和计划”。这里 LLM 不再只是把语言转为 token,而是:- 作为语义中介(semantic mediator)**,解释任务语义;

  • 执行内部推理(inner monologue, chain-of-thought)

  • 进行层级规划(hierarchical planning)

  • 通过交互式语言反馈进行实时修正;

  • 有时甚至作为控制管线的中心调度器(orchestrator)。** 轨迹生成和视觉对齐 结构优化与高效推理

Generalist

第2、3段分开的原因是:
它们分别讨论了研究进展的两个不同维度——

  • 第2段:技术演进与规模扩展(从早期模型到大规模语言融合)

  • 第3段:系统整合与效率优化(跨平台兼容与推理能力) 这一段 ### 发展轨迹

  1. 早期探索

    • Gato:提出将视觉、语言、动作等异构模态统一 token 化,实现多模态联合训练。

    • 特点:模型能按时间步生成动作,但推理能力有限。

  2. 规模化训练

    • RT-1/RT-2:利用大规模真实世界数据和网页数据进行预训练,提高泛化能力和鲁棒性。
  3. 语言知识融合

    • PaLM-E:引入预训练语言模型知识,增强具身控制能力。
  4. 跨平台统一

    • Octo、LEO、UniAct:提出通用动作抽象,解决不同机器人平台间的兼容性问题。
    • 这个动作抽象有点好奇:
  5. 轻量化与推理集成

    • NORA、RoboMM:面向资源受限场景的轻量化设计,同时支持有限的推理功能。

总结

  • 目标是统一多模态输入,逐步生成动作

  • 发展方向是从 proof-of-concept → 大规模训练 → 跨平台可用 → 轻量化与效率优化;

  • 核心贡献在于通用性和序列建模能力,但推理能力有限

ai抄的,没空慢慢看了

2.1 基于自回归的模型

这类模型将动作序列视为时间依赖过程,以逐步生成的方式产生动作。

  • ​通用型VLA方法​​:如Gato、RT-1/RT-2、PaLM-E,通过统一的多模态输入标记化,实现跨任务的泛化。

  • ​语义规划与推理​​:集成LLM进行高层语义规划和推理,处理长视野和组合任务,例如通过链式思维(Chain-of-Thought)机制。

  • ​轨迹生成与视觉对齐​​:直接将语言映射到运动轨迹,强调感知与动作的紧密结合,应用从机械臂到自动驾驶。

  • ​结构优化与高效推理​​:采用分层模块化、动态提前退出解码、量化和并行化等技术,以降低计算成本,满足实时控制需求。

​讨论​​:自回归模型优势在于架构统一、泛化能力强,但存在错误累积、推理延迟和对齐脆弱等局限性。

2.2 基于扩散的模型

这类模型将动作生成视为一个去噪过程,能天然地建模多模态的动作分布。

  • ​通用型方法​​:从确定性回归转向概率生成,能产生多样化的合理轨迹。

  • ​多模态架构融合​​:将Transformer与扩散模型结合,更好地融合异构模态(视觉、语言、本体感觉)。

  • ​应用优化与部署​​:关注轻量化设计(如TinyVLA)、领域适应(如灵巧操作、自动驾驶)和运行时鲁棒性,推动模型从实验室走向实际应用。

​讨论​​:扩散模型在轨迹多样性和几何约束方面表现出色,但面临计算需求大、时序一致性以及在动态环境中安全性验证不足等挑战。

2.3 基于强化学习的微调模型

这类方法将VLA基础模型与强化学习相结合,利用视觉和语言信号生成奖励函数,优化策略。

  • ​奖励塑造​​:利用VLM生成可迁移的、密集的奖励信号,简化人工设计奖励的工程。

  • ​混合训练策略​​:结合离线模仿学习与在线强化学习,以提高训练稳定性和样本效率。

  • ​安全考虑​​:如SafeVLA模型,通过约束优化减少高风险动作。

  • ​应用扩展​​:已应用于四足机器人、仿人机器人和自动驾驶等领域。

​讨论​​:强化学习能提升策略在交互环境中的性能,但奖励设计、训练稳定性以及安全性保障仍是难题。

2.4 其他先进研究(混合与专用方法)

  • ​混合架构​​:如HybridVLA,结合自回归推理和扩散模型的动作生成,取长补短。

  • ​高级多模态融合与空间理解​​:超越简单的特征拼接,明确建模3D几何、功能性和空间关系。

  • ​专用领域适配​​:将VLA框架扩展到自动驾驶、图形用户界面交互、仿人机器人全身控制等特定领域。

  • ​基础模型与大规模训练​​:强调通过大规模多模态数据集(如DROID)进行预训练,构建通用智能体。

  • ​实际部署​​:关注效率(实时推理、模型压缩)、安全性(故障检测、对抗鲁棒性)和人机协作。

  • 挑战与未来方向

论文指出了VLA模型发展面临的五大核心挑战及相应的机遇:

4.1 挑战

  1. ​机器人数据稀缺​​:真实世界数据采集成本高、规模有限,仿真数据与真实世界存在差距。

  2. ​架构异构性​​:模型 backbone、动作表示等缺乏统一标准,导致比较和复用困难。

  3. ​实时推理约束与成本​​:大模型导致高延迟和高计算成本,难以在嵌入式系统上部署。

  4. ​人机交互中的“伪交互”​​:模型缺乏基于环境反馈的因果推理能力,难以真正适应动态变化。

  5. ​评估与基准测试的局限性​​:当前基准测试多局限于结构化环境,无法全面反映在开放世界中的性能。

4.2 未来方向与机遇

  1. ​世界模型与跨模态统一​​:构建能够联合理解环境、进行推理和交互的统一世界模型。

  2. ​因果推理与真正交互的突破​​:发展能够探索环境、验证假设并更新策略的模型。

  3. ​虚实集成与大规模数据生成​​:通过高保真仿真和合成数据,构建万亿级轨迹的数据生态系统。

  4. ​社会嵌入与可信生态系统的建立​​:确保VLA系统的安全性、可解释性和伦理对齐,使其成为值得信赖的社会伙伴。

5. 结论

本综述系统性地梳理了VLA模型的研究现状,提供了一个统一的分类法,分析了超过300篇相关文献及其支撑资源。论文总结了自回归、扩散、强化学习以及混合模型等主要技术路线的创新与局限,并强调了数据集、仿真平台的重要性。最后,论文指出,未来的研究需要着力解决数据、架构、推理、评估和安全性等方面的核心挑战,才能推动VLA模型向着可信、可扩展的通用机器人智能方向发展。

通过对当前VLA版图的全面测绘,本综述为研究人员提供了宝贵的参考,并为这一激动人心的领域的未来发展绘制了清晰的路线图。

数据方面的问题感觉不大,暂时不用考虑

然后就是这篇万年里面提出来 根据论文内容分析,"伪交互"问题主要源于VLA模型的整体架构设计缺陷,而非单一模块的问题。让我详细分析:

问题根源分析

1. 核心问题所在

论文第7.1.4节明确指出:

"Systems generate actions based on prior knowledge or static training patterns rather than engaging in genuine interaction grounded in environmental dynamics and causal reasoning."

这个问题是系统性的,涉及:

  • VLM模块:虽然能理解语义,但缺乏物理世界交互经验
  • Action Expert:基于历史数据的统计模式生成动作,而非因果推理
  • 反馈机制:缺乏闭环的环境探测和策略更新能力

2. 具体表现

当前VLA模型主要依赖从静态数据分布和表面相关性学习,缺乏基于因果规律的交互能力。它们通过猜测先验模式来模拟交互,而不是探测环境并根据反馈更新策略。


改进思路

方向1: 引入世界模型(World Model)

论文提出统一语言、视觉和动作到单一token流中,使VLA能够联合建模环境、推理和交互,演变为原型世界模型。

具体实现

  • 集成视频预测能力(参考论文中的GR-1/2、WorldVLA等工作)
  • 让模型预测动作的物理后果
  • 通过对比预测与实际结果来更新因果理解

方向2: 强化学习与在线适应

如果未来VLA能够整合因果建模和交互推理,机器人将学会探测、验证和适应。

具体实现

  • 采用在线强化学习方法(如VLA-RL、ReinBoT、ConRFT)
  • 设计探索奖励机制,鼓励模型主动探测环境
  • 实现"试错-反思"循环

方向3: 分层架构改进

参考论文中的先进工作:

A. 双系统架构

  • HybridVLA和RationalVLA采用双系统设计,分离高层推理和低层执行
  • MinD、Hume、TriVLA实现了认知启发的分层架构

实现要点

1
2
3
4
5
6
7
System 1 (快速执行层)
- 基于已学习的因果模式快速响应

System 2 (慢速推理层)
- 分析环境反馈
- 更新因果图谱
- 指导探索策略

方向4: 因果推理模块

可借鉴的方法

  • CogACT使用语义场景图连接感知、推理和控制
  • ReKep通过关系关键点图进行时空因果推理

核心改进

  1. 显式因果图谱:构建物体-动作-结果的因果关系网络
  2. 反事实推理:模拟"如果采取不同动作会怎样"
  3. 不确定性量化:识别知识边界,触发探索行为

方向5: 交互式学习范式

Interactive Language和YAY Robot展示了实时纠正和反馈机制。

实现策略

  • 集成多轮交互对话
  • 解释模型的因果假设
  • 接受人类反馈修正因果链

具体实现建议

最小可行方案(MVP)

  1. 在现有VLA基础上添加反思层

python

1
2
3
4
5
6
7
8
9
10
11
# 伪代码示例
action = vla_model(observation, instruction)
predicted_outcome = world_model.predict(observation, action)

# 执行并对比
actual_outcome = environment.step(action)
causal_error = compute_difference(predicted_outcome, actual_outcome)

# 更新因果理解
if causal_error > threshold:
world_model.update_causal_graph(observation, action, actual_outcome)
  1. 引入探索奖励
    • 奖励降低预测误差的动作
    • 奖励探索高不确定性区域

进阶方案

结合论文提出的虚实融合数据生态系统:

  • 在仿真中进行大规模因果实验
  • 使用合成数据生成罕见场景
  • 将学到的因果关系迁移到真实环境

总结

"伪交互"问题是VLA范式的根本局限,需要从:

  1. 架构层面:引入世界模型和分层设计
  2. 训练范式:从监督学习转向在线强化学习
  3. 推理机制:显式建模因果关系
  4. 评估标准:不仅看成功率,更要评估适应性和泛化能力

论文强调,这将标志着从数据驱动智能向深度交互智能的转变,是实现通用具身智能的关键一步。