Pure Vision Language Action (VLA) Models: A Comprehensive Survey
比较新的综述,2025年9月25日发的
写了不整理相当于没写。
这篇文章里面好多分类错误的东西:P,别全信,可以提供思路
ok没读完也不许再看了,现在没空
vla的终极目标是通用的具身智能 这篇论文从动作实现把vla分成以下四类: 基于自回归的建模、基于扩散的方法、强化学习策略以及混合或专业设计
为什么fig3把pi0.5放在autoregression based里面?
autoregression-based
通过将动作序列视为时间依赖的过程,这些模型根据先前的上下文、感知输入和任务提示逐步生成动作 代表工作openvla,rt-1,worldvla 再次分类:
这四个分类是横向的,然后内部在创新性上纵向发展。 Generalist: 核心目标:统一模态、统一表示、统一输出机制。- 语言信息(比如指令 prompt)主要作为条件输入(conditioning input),帮助模型理解任务,但不会主动“推理”。 推理和语义规划:核心目标:引入语言模型的推理能力,使模型不仅能“模仿动作序列”,还能“思考和计划”。这里 LLM 不再只是把语言转为 token,而是:- 作为语义中介(semantic mediator)**,解释任务语义;
执行内部推理(inner monologue, chain-of-thought);
进行层级规划(hierarchical planning);
通过交互式语言反馈进行实时修正;
有时甚至作为控制管线的中心调度器(orchestrator)。** 轨迹生成和视觉对齐 结构优化与高效推理
Generalist
第2、3段分开的原因是:
它们分别讨论了研究进展的两个不同维度——
第2段:技术演进与规模扩展(从早期模型到大规模语言融合)
第3段:系统整合与效率优化(跨平台兼容与推理能力) 这一段 ### 发展轨迹
早期探索:
Gato:提出将视觉、语言、动作等异构模态统一 token 化,实现多模态联合训练。
特点:模型能按时间步生成动作,但推理能力有限。
规模化训练:
- RT-1/RT-2:利用大规模真实世界数据和网页数据进行预训练,提高泛化能力和鲁棒性。
语言知识融合:
- PaLM-E:引入预训练语言模型知识,增强具身控制能力。
跨平台统一:
- Octo、LEO、UniAct:提出通用动作抽象,解决不同机器人平台间的兼容性问题。
- 这个动作抽象有点好奇:
轻量化与推理集成:
- NORA、RoboMM:面向资源受限场景的轻量化设计,同时支持有限的推理功能。
总结
目标是统一多模态输入,逐步生成动作;
发展方向是从 proof-of-concept → 大规模训练 → 跨平台可用 → 轻量化与效率优化;
核心贡献在于通用性和序列建模能力,但推理能力有限。
ai抄的,没空慢慢看了
2.1 基于自回归的模型
这类模型将动作序列视为时间依赖过程,以逐步生成的方式产生动作。
通用型VLA方法:如Gato、RT-1/RT-2、PaLM-E,通过统一的多模态输入标记化,实现跨任务的泛化。
语义规划与推理:集成LLM进行高层语义规划和推理,处理长视野和组合任务,例如通过链式思维(Chain-of-Thought)机制。
轨迹生成与视觉对齐:直接将语言映射到运动轨迹,强调感知与动作的紧密结合,应用从机械臂到自动驾驶。
结构优化与高效推理:采用分层模块化、动态提前退出解码、量化和并行化等技术,以降低计算成本,满足实时控制需求。
讨论:自回归模型优势在于架构统一、泛化能力强,但存在错误累积、推理延迟和对齐脆弱等局限性。
2.2 基于扩散的模型
这类模型将动作生成视为一个去噪过程,能天然地建模多模态的动作分布。
通用型方法:从确定性回归转向概率生成,能产生多样化的合理轨迹。
多模态架构融合:将Transformer与扩散模型结合,更好地融合异构模态(视觉、语言、本体感觉)。
应用优化与部署:关注轻量化设计(如TinyVLA)、领域适应(如灵巧操作、自动驾驶)和运行时鲁棒性,推动模型从实验室走向实际应用。
讨论:扩散模型在轨迹多样性和几何约束方面表现出色,但面临计算需求大、时序一致性以及在动态环境中安全性验证不足等挑战。
2.3 基于强化学习的微调模型
这类方法将VLA基础模型与强化学习相结合,利用视觉和语言信号生成奖励函数,优化策略。
奖励塑造:利用VLM生成可迁移的、密集的奖励信号,简化人工设计奖励的工程。
混合训练策略:结合离线模仿学习与在线强化学习,以提高训练稳定性和样本效率。
安全考虑:如SafeVLA模型,通过约束优化减少高风险动作。
应用扩展:已应用于四足机器人、仿人机器人和自动驾驶等领域。
讨论:强化学习能提升策略在交互环境中的性能,但奖励设计、训练稳定性以及安全性保障仍是难题。
2.4 其他先进研究(混合与专用方法)
混合架构:如HybridVLA,结合自回归推理和扩散模型的动作生成,取长补短。
高级多模态融合与空间理解:超越简单的特征拼接,明确建模3D几何、功能性和空间关系。
专用领域适配:将VLA框架扩展到自动驾驶、图形用户界面交互、仿人机器人全身控制等特定领域。
基础模型与大规模训练:强调通过大规模多模态数据集(如DROID)进行预训练,构建通用智能体。
实际部署:关注效率(实时推理、模型压缩)、安全性(故障检测、对抗鲁棒性)和人机协作。
挑战与未来方向
论文指出了VLA模型发展面临的五大核心挑战及相应的机遇:
4.1 挑战
机器人数据稀缺:真实世界数据采集成本高、规模有限,仿真数据与真实世界存在差距。
架构异构性:模型 backbone、动作表示等缺乏统一标准,导致比较和复用困难。
实时推理约束与成本:大模型导致高延迟和高计算成本,难以在嵌入式系统上部署。
人机交互中的“伪交互”:模型缺乏基于环境反馈的因果推理能力,难以真正适应动态变化。
评估与基准测试的局限性:当前基准测试多局限于结构化环境,无法全面反映在开放世界中的性能。
4.2 未来方向与机遇
世界模型与跨模态统一:构建能够联合理解环境、进行推理和交互的统一世界模型。
因果推理与真正交互的突破:发展能够探索环境、验证假设并更新策略的模型。
虚实集成与大规模数据生成:通过高保真仿真和合成数据,构建万亿级轨迹的数据生态系统。
社会嵌入与可信生态系统的建立:确保VLA系统的安全性、可解释性和伦理对齐,使其成为值得信赖的社会伙伴。
5. 结论
本综述系统性地梳理了VLA模型的研究现状,提供了一个统一的分类法,分析了超过300篇相关文献及其支撑资源。论文总结了自回归、扩散、强化学习以及混合模型等主要技术路线的创新与局限,并强调了数据集、仿真平台的重要性。最后,论文指出,未来的研究需要着力解决数据、架构、推理、评估和安全性等方面的核心挑战,才能推动VLA模型向着可信、可扩展的通用机器人智能方向发展。
通过对当前VLA版图的全面测绘,本综述为研究人员提供了宝贵的参考,并为这一激动人心的领域的未来发展绘制了清晰的路线图。
数据方面的问题感觉不大,暂时不用考虑
然后就是这篇万年里面提出来 根据论文内容分析,"伪交互"问题主要源于VLA模型的整体架构设计缺陷,而非单一模块的问题。让我详细分析:
问题根源分析
1. 核心问题所在
论文第7.1.4节明确指出:
"Systems generate actions based on prior knowledge or static training patterns rather than engaging in genuine interaction grounded in environmental dynamics and causal reasoning."
这个问题是系统性的,涉及:
- VLM模块:虽然能理解语义,但缺乏物理世界交互经验
- Action Expert:基于历史数据的统计模式生成动作,而非因果推理
- 反馈机制:缺乏闭环的环境探测和策略更新能力
2. 具体表现
当前VLA模型主要依赖从静态数据分布和表面相关性学习,缺乏基于因果规律的交互能力。它们通过猜测先验模式来模拟交互,而不是探测环境并根据反馈更新策略。
改进思路
方向1: 引入世界模型(World Model)
论文提出统一语言、视觉和动作到单一token流中,使VLA能够联合建模环境、推理和交互,演变为原型世界模型。
具体实现:
- 集成视频预测能力(参考论文中的GR-1/2、WorldVLA等工作)
- 让模型预测动作的物理后果
- 通过对比预测与实际结果来更新因果理解
方向2: 强化学习与在线适应
如果未来VLA能够整合因果建模和交互推理,机器人将学会探测、验证和适应。
具体实现:
- 采用在线强化学习方法(如VLA-RL、ReinBoT、ConRFT)
- 设计探索奖励机制,鼓励模型主动探测环境
- 实现"试错-反思"循环
方向3: 分层架构改进
参考论文中的先进工作:
A. 双系统架构
- HybridVLA和RationalVLA采用双系统设计,分离高层推理和低层执行
- MinD、Hume、TriVLA实现了认知启发的分层架构
实现要点:
1 | System 1 (快速执行层) |
方向4: 因果推理模块
可借鉴的方法:
- CogACT使用语义场景图连接感知、推理和控制
- ReKep通过关系关键点图进行时空因果推理
核心改进:
- 显式因果图谱:构建物体-动作-结果的因果关系网络
- 反事实推理:模拟"如果采取不同动作会怎样"
- 不确定性量化:识别知识边界,触发探索行为
方向5: 交互式学习范式
Interactive Language和YAY Robot展示了实时纠正和反馈机制。
实现策略:
- 集成多轮交互对话
- 解释模型的因果假设
- 接受人类反馈修正因果链
具体实现建议
最小可行方案(MVP)
- 在现有VLA基础上添加反思层:
python
1 | # 伪代码示例 |
- 引入探索奖励:
- 奖励降低预测误差的动作
- 奖励探索高不确定性区域
进阶方案
结合论文提出的虚实融合数据生态系统:
- 在仿真中进行大规模因果实验
- 使用合成数据生成罕见场景
- 将学到的因果关系迁移到真实环境
总结
"伪交互"问题是VLA范式的根本局限,需要从:
- 架构层面:引入世界模型和分层设计
- 训练范式:从监督学习转向在线强化学习
- 推理机制:显式建模因果关系
- 评估标准:不仅看成功率,更要评估适应性和泛化能力
论文强调,这将标志着从数据驱动智能向深度交互智能的转变,是实现通用具身智能的关键一步。