Pure Vision Language Action (VLA) Models: A Comprehensive Survey

发表于 2025-10-28 分类于 paper

比较新的综述，2025年9月25日发的

写了不整理相当于没写。

这篇文章里面好多分类错误的东西:P，别全信，可以提供思路

ok没读完也不许再看了，现在没空

vla的终极目标是通用的具身智能这篇论文从动作实现把vla分成以下四类：基于自回归的建模、基于扩散的方法、强化学习策略以及混合或专业设计

为什么fig3把pi0.5放在autoregression based里面？

autoregression-based

通过将动作序列视为时间依赖的过程，这些模型根据先前的上下文、感知输入和任务提示逐步生成动作代表工作openvla，rt-1，worldvla 再次分类：

这四个分类是横向的，然后内部在创新性上纵向发展。 Generalist： 核心目标：统一模态、统一表示、统一输出机制。- 语言信息（比如指令 prompt）主要作为条件输入（conditioning input），帮助模型理解任务，但不会主动“推理”。 推理和语义规划：核心目标：引入语言模型的推理能力，使模型不仅能“模仿动作序列”，还能“思考和计划”。这里 LLM 不再只是把语言转为 token，而是：- 作为语义中介（semantic mediator）**，解释任务语义；

执行内部推理（inner monologue, chain-of-thought）；
进行层级规划（hierarchical planning）；
通过交互式语言反馈进行实时修正；
有时甚至作为控制管线的中心调度器（orchestrator）。** 轨迹生成和视觉对齐结构优化与高效推理

Generalist

第2、3段分开的原因是：
它们分别讨论了研究进展的两个不同维度——

第2段：技术演进与规模扩展（从早期模型到大规模语言融合）
第3段：系统整合与效率优化（跨平台兼容与推理能力） 这一段 ### 发展轨迹

早期探索：
- Gato：提出将视觉、语言、动作等异构模态统一 token 化，实现多模态联合训练。
- 特点：模型能按时间步生成动作，但推理能力有限。
规模化训练：
- RT-1/RT-2：利用大规模真实世界数据和网页数据进行预训练，提高泛化能力和鲁棒性。
语言知识融合：
- PaLM-E：引入预训练语言模型知识，增强具身控制能力。
跨平台统一：
- Octo、LEO、UniAct：提出通用动作抽象，解决不同机器人平台间的兼容性问题。
- 这个动作抽象有点好奇：
轻量化与推理集成：
- NORA、RoboMM：面向资源受限场景的轻量化设计，同时支持有限的推理功能。

总结

目标是统一多模态输入，逐步生成动作；
发展方向是从 proof-of-concept → 大规模训练 → 跨平台可用 → 轻量化与效率优化；
核心贡献在于通用性和序列建模能力，但推理能力有限。

ai抄的，没空慢慢看了

2.1 基于自回归的模型

这类模型将动作序列视为时间依赖过程，以逐步生成的方式产生动作。

通用型VLA方法：如Gato、RT-1/RT-2、PaLM-E，通过统一的多模态输入标记化，实现跨任务的泛化。
语义规划与推理：集成LLM进行高层语义规划和推理，处理长视野和组合任务，例如通过链式思维（Chain-of-Thought）机制。
轨迹生成与视觉对齐：直接将语言映射到运动轨迹，强调感知与动作的紧密结合，应用从机械臂到自动驾驶。
结构优化与高效推理：采用分层模块化、动态提前退出解码、量化和并行化等技术，以降低计算成本，满足实时控制需求。

讨论：自回归模型优势在于架构统一、泛化能力强，但存在错误累积、推理延迟和对齐脆弱等局限性。

2.2 基于扩散的模型

这类模型将动作生成视为一个去噪过程，能天然地建模多模态的动作分布。

通用型方法：从确定性回归转向概率生成，能产生多样化的合理轨迹。
多模态架构融合：将Transformer与扩散模型结合，更好地融合异构模态（视觉、语言、本体感觉）。
应用优化与部署：关注轻量化设计（如TinyVLA）、领域适应（如灵巧操作、自动驾驶）和运行时鲁棒性，推动模型从实验室走向实际应用。

讨论：扩散模型在轨迹多样性和几何约束方面表现出色，但面临计算需求大、时序一致性以及在动态环境中安全性验证不足等挑战。

2.3 基于强化学习的微调模型

这类方法将VLA基础模型与强化学习相结合，利用视觉和语言信号生成奖励函数，优化策略。

奖励塑造：利用VLM生成可迁移的、密集的奖励信号，简化人工设计奖励的工程。
混合训练策略：结合离线模仿学习与在线强化学习，以提高训练稳定性和样本效率。
安全考虑：如SafeVLA模型，通过约束优化减少高风险动作。
应用扩展：已应用于四足机器人、仿人机器人和自动驾驶等领域。

讨论：强化学习能提升策略在交互环境中的性能，但奖励设计、训练稳定性以及安全性保障仍是难题。

2.4 其他先进研究（混合与专用方法）

混合架构：如HybridVLA，结合自回归推理和扩散模型的动作生成，取长补短。
高级多模态融合与空间理解：超越简单的特征拼接，明确建模3D几何、功能性和空间关系。
专用领域适配：将VLA框架扩展到自动驾驶、图形用户界面交互、仿人机器人全身控制等特定领域。
基础模型与大规模训练：强调通过大规模多模态数据集（如DROID）进行预训练，构建通用智能体。
实际部署：关注效率（实时推理、模型压缩）、安全性（故障检测、对抗鲁棒性）和人机协作。
挑战与未来方向

论文指出了VLA模型发展面临的五大核心挑战及相应的机遇：

4.1 挑战

机器人数据稀缺：真实世界数据采集成本高、规模有限，仿真数据与真实世界存在差距。
架构异构性：模型 backbone、动作表示等缺乏统一标准，导致比较和复用困难。
实时推理约束与成本：大模型导致高延迟和高计算成本，难以在嵌入式系统上部署。
人机交互中的“伪交互”：模型缺乏基于环境反馈的因果推理能力，难以真正适应动态变化。
评估与基准测试的局限性：当前基准测试多局限于结构化环境，无法全面反映在开放世界中的性能。

4.2 未来方向与机遇

世界模型与跨模态统一：构建能够联合理解环境、进行推理和交互的统一世界模型。
因果推理与真正交互的突破：发展能够探索环境、验证假设并更新策略的模型。
虚实集成与大规模数据生成：通过高保真仿真和合成数据，构建万亿级轨迹的数据生态系统。
社会嵌入与可信生态系统的建立：确保VLA系统的安全性、可解释性和伦理对齐，使其成为值得信赖的社会伙伴。

5. 结论

本综述系统性地梳理了VLA模型的研究现状，提供了一个统一的分类法，分析了超过300篇相关文献及其支撑资源。论文总结了自回归、扩散、强化学习以及混合模型等主要技术路线的创新与局限，并强调了数据集、仿真平台的重要性。最后，论文指出，未来的研究需要着力解决数据、架构、推理、评估和安全性等方面的核心挑战，才能推动VLA模型向着可信、可扩展的通用机器人智能方向发展。

通过对当前VLA版图的全面测绘，本综述为研究人员提供了宝贵的参考，并为这一激动人心的领域的未来发展绘制了清晰的路线图。

数据方面的问题感觉不大，暂时不用考虑

然后就是这篇万年里面提出来根据论文内容分析，"伪交互"问题主要源于VLA模型的整体架构设计缺陷，而非单一模块的问题。让我详细分析：

问题根源分析

1. 核心问题所在

论文第7.1.4节明确指出：

"Systems generate actions based on prior knowledge or static training patterns rather than engaging in genuine interaction grounded in environmental dynamics and causal reasoning."

这个问题是系统性的，涉及：

VLM模块：虽然能理解语义，但缺乏物理世界交互经验
Action Expert：基于历史数据的统计模式生成动作，而非因果推理
反馈机制：缺乏闭环的环境探测和策略更新能力

2. 具体表现

当前VLA模型主要依赖从静态数据分布和表面相关性学习，缺乏基于因果规律的交互能力。它们通过猜测先验模式来模拟交互，而不是探测环境并根据反馈更新策略。

改进思路

方向1: 引入世界模型（World Model）

论文提出统一语言、视觉和动作到单一token流中，使VLA能够联合建模环境、推理和交互，演变为原型世界模型。

具体实现：

集成视频预测能力（参考论文中的GR-1/2、WorldVLA等工作）
让模型预测动作的物理后果
通过对比预测与实际结果来更新因果理解

方向2: 强化学习与在线适应

如果未来VLA能够整合因果建模和交互推理，机器人将学会探测、验证和适应。

具体实现：

采用在线强化学习方法（如VLA-RL、ReinBoT、ConRFT）
设计探索奖励机制，鼓励模型主动探测环境
实现"试错-反思"循环

方向3: 分层架构改进

参考论文中的先进工作：

A. 双系统架构

HybridVLA和RationalVLA采用双系统设计，分离高层推理和低层执行
MinD、Hume、TriVLA实现了认知启发的分层架构

实现要点：

System 1 (快速执行层)
  - 基于已学习的因果模式快速响应
  
System 2 (慢速推理层)
  - 分析环境反馈
  - 更新因果图谱
  - 指导探索策略

方向4: 因果推理模块

可借鉴的方法：

CogACT使用语义场景图连接感知、推理和控制
ReKep通过关系关键点图进行时空因果推理

核心改进：

显式因果图谱：构建物体-动作-结果的因果关系网络
反事实推理：模拟"如果采取不同动作会怎样"
不确定性量化：识别知识边界，触发探索行为

方向5: 交互式学习范式

Interactive Language和YAY Robot展示了实时纠正和反馈机制。

实现策略：

集成多轮交互对话
解释模型的因果假设
接受人类反馈修正因果链

具体实现建议

最小可行方案（MVP）

在现有VLA基础上添加反思层：

python

# 伪代码示例
action = vla_model(observation, instruction)
predicted_outcome = world_model.predict(observation, action)

# 执行并对比
actual_outcome = environment.step(action)
causal_error = compute_difference(predicted_outcome, actual_outcome)

# 更新因果理解
if causal_error > threshold:
    world_model.update_causal_graph(observation, action, actual_outcome)

引入探索奖励：
- 奖励降低预测误差的动作
- 奖励探索高不确定性区域

进阶方案

结合论文提出的虚实融合数据生态系统：

在仿真中进行大规模因果实验
使用合成数据生成罕见场景
将学到的因果关系迁移到真实环境

总结

"伪交互"问题是VLA范式的根本局限，需要从：

架构层面：引入世界模型和分层设计
训练范式：从监督学习转向在线强化学习
推理机制：显式建模因果关系
评估标准：不仅看成功率，更要评估适应性和泛化能力

论文强调，这将标志着从数据驱动智能向深度交互智能的转变，是实现通用具身智能的关键一步。