pi0.5

pi0.5也开源了,看一下原文

大概

2025-10-20 15:04:17开始,看这篇的目的: 1. 了解pi0.5怎么做的,能实现什么效果,研究的问题是什么 2. 和pi0比较 2025-10-23 14:15:43 看完了,现在思路比较清晰了但是不知道怎么改。

任务拆解的实时性怎么样?
比如碰倒下了,越过了……这种改变了场景的形态

关键词:

generalization

open-world generalization

问题:以便实现跨环境的广泛通用

这个和pi0一样,泛化性很强,能做到在新场景中做长时间任务,也就是wild上的比较好

也就是zero-shot下的能力

之前pi0也能,但是效果一般?不清楚,里面的hard的结果?而且那些任务不够长时序

pi0.5的一个关键词是co-training 的框架,pi0当时只说了end-to-end的。

co在哪里:异构的数据、不同的知识资源

模型架构:

训练:

  1. 在训练任务的异构混合上对模型进行预训练

  2. 通过低级动作示例和高级“语义”动作对应于预测子任务标签,专门针对移动作进行微调。

推理:模型首先预测语义子任务,根据任务结构和场景的语义推断出接下来适合执行的行为,然后基于该子任务预测低级机器人动作块。这种简单的架构既提供了推理长期多阶段任务的能力,也提供了利用两个级别的不同知识来源的能力:低级动作推理过程很容易从其他机器人收集的动作数据中受益,包括其他环境中更简单的静态机器人,而高级推理过程则受益于来自网络的语义示例, 高级注释预测,甚至是人类“主管”可以向机器人提供的口头命令,引导机器人逐步完成复杂的任务,指示它(很像他们可能指示一个人的方式)执行适当的子任务以完成复杂的任务,例如打扫房间。我们在图 1 中说明了这种设计。

pi0我记得也有高中低级的任务指令啊,没这么复杂?

最后的贡献总结是

我们的核心贡献是一个用于训练高度可泛化的 VLA π0.5 的系统,以及一个概念验证,即当该模型在适当多样化的数据上进行训练时,可以从该模型中产生泛化。

怎样设计实验验证generalizaion capabalities的


相关工作

generalist robot manipulation

vlm里面的一个结论:

将机器人纵策略的训练数据分布范围从狭窄的单任务数据集拓宽到跨越多个场景和任务的多样化数据集提高他们推广到新场景和任务的能力

为什么不会引入噪声?(针对同一个任务的)

single里面会学到spurious correlations也就是表面相关性

也就是训练数据集的多样性。从“表示学习(representation learning)”的角度看,它们其实提供了结构化的辅助信息(structured signal),帮助模型更好地理解“什么是可抓取的物体、如何控制手爪、如何对齐接触面

需要尽量避免negative transfer

工作的问题:,但将相同的方法应用于更复杂、更长远的任务(如清理厨房)具有挑战性

pi0.5的改进:在我们的实验中,我们在全新的场景中评估了π0.5,例如训练中没有看到的新厨房和卧室,这表明我们的VLA不仅可以利用目标移动机械手平台上的直接第一手经验,还可以利用来自其他数据源的信息,推广到全新的场景

非robot数据的co-train

前提:将VLA与用于VLM训练的数据混合[23,92,86]共同训练VLA可以提高其泛化能力

问题:超越了 VLM 数据协同训练(隐晦)

不同:设计了一个系统,用于与更广泛的机器人相关监督源(包括来自其他机器人的数据、高级语义子任务预测和口头语言指令)共同训练 VLA

机器人用语言进行推理和规划

  1. 通过高级推理增强端到端策略可以显着提高长期任务的性能,特别是当高级子任务推理可以从大型预训练 LLM 和 VLM 中受益时。

  2. 许多先前的方法采用了两个独立的模型,一个VLM预测语义步骤,一个单独的低级策略执行这些步骤,但没有两个一起的

  3. 我们的方法对高级和低级推理使用相同的精确模型

具有开放世界泛化的机器人学习系统

2类相关工作

  1. 以前的工作是用primitive,but不容易推广

  2. 跨许多领域收集的大规模数据集端到端,but时间短

  3. 本文工作同时克服了两类相关工作的局限性:不局限于 primitive-based 的简单任务,且超越了大规模数据集方法的短时任务限制


“PRELIMINARIES” (pdf)

这一章说了下vla的基础结

  1. 基本设置 D是训练用的数据集,t是当前时间步,H是步长,o是观察,l是自然语言指令,thta是参数,pi是策略,E是期望。

  2. 架构:具有特定于模态的分词器,可将输入和输出映射到离散(“硬”)或连续(“软”)标记表示,以及经过训练以从输入标记映射到输出标记的大型自回归转换器主干网。连续token是什么?我记得以前transformer给语言分词不就是为了变成离散的吗?

    1. 离散token:Token ID → embedding lookup → 向量输入 transformer

    2. 连续token:一般针对非文本模态

    3. 本质上 transformer 处理的是向量序列,而不要求输入必须是离散 token

    4. 通过将策略输入和输出编码为标记化表示,上述模仿学习问题可以转换为一系列观察、指令和作标记上的简单下一个标记预测问题,我们可以利用现代机器学习的可扩展工具来优化它。

      1. 怎样转化的:VLA里面模仿学习的目标是最大化那个概率
  3. tokenize细节:视觉和语言 tokenizer 沿用现有 VLM 的做法,然后动作的做法比较特殊:它本来是连续的信号,需要压缩程token,使用compression-based tokenization,把连续动作压缩为离散或连续 token,降低序列长度和维度。这个方法就是FAST那个

  4. post-train与动作专家:用flow matching表示动作分布

    1. 动作分布(action distribution)指的是 在给定观测 ot​ 和指令 l 的条件下,策略 πθ 输出动作的概率分布

第四部分才提到post-train,前面三个都是pre-train吗?

预训练阶段

  • 模型学习 general VLA 能力

  • 对图像、语言、动作进行 token 化

  • 通过模仿学习或者 diffusion/flow matching 方式训练 transformer backbone

  • 学到的是一般的观察 → 动作映射能力

第四部分提到 post-training

  • 建立在 pre-trained backbone 之上

  • 专门优化动作生成,引入 flow matching + action expert

  • 目标是 在连续动作生成上更精确、更高效

  • 也就是说,这一阶段是 fine-tuning / 专门训练动作生成模块


pi0.5

框架

动作还是用fast变成离散的token了啊,也没有变成连续的

pre-train,粗粒度的模仿学习,还没用到flow matching,最大化之前那个log函数的值就足够了

在 post-training 阶段:

  • 专门训练模型 先推断高层子任务,再生成动作

  • 使用任务相关数据和口头指令(verbal instruction)进行 fine-tuning

  • 使用 flow matching 表示连续动作,让低层动作生成更精细

没懂怎么做到同时训练2个目标的:1. 推理动作指令,2. 利用指令推理动作

然后是第二段,关于transformer的多模态处理,每一层transformer,都有多模态输入和多模态输出。

  1. 根据公式,好像就是输出俩,一个textual output,一个action output

  2. πθ​(at:t+H​,l^∣ot​,l)条件概率链式分解之后变成

“πθ(at:t+H , lˆ|ot, l) = πθ(at:t+H |ot, lˆ)πθ(lˆ|ot, l),” (Intelligence et al., 2025, p. 5) (pdf)

就是所谓的指令转换

Transformer 可以针对不同 token 类型使用不同子网络

用attention matrix指示 token 之间是否可以互相注意(attend),一般的llm用causal attention(只能看前面的 token),pi0.5π0.5 对不同模态 token 使用 bidirectional attention:图像 patch、文本 prompt、动作 token 可以互相看到

  1. attend是什么意思

    1. 在 Transformer 中,attention 指的是:每个 token 在计算表示时可以参考(attend to)序列中其他 token 的信息。
  2. 为什么多模态需要bidirectional attention,语言模型只要causal attention就足够了?

    1. 因果(causal)attention 约束:

      • Token i 只能看到 1,2,…,i 的 token

      • 目的是保证 autoregressive 生成:预测下一个 token 时不能“偷看未来”保证生成顺序正确

    2. bidirectional attention

      多模态交互:图像、语言、动作三种模态可能互相依赖

      • 例如动作 token 的预测可能依赖图像 patch 和文本 token

      • 同时,高层动作 token 也可能影响低层动作 token 的表示

      流行的 flow matching / diffusion 方法

      • 在 post-training 阶段,动作 token 是 去噪序列的一部分

      • 去噪动作 token 之间也需要互相参考 → 需要 bidirectional

      图像或文本之间可能有信息依赖

      • 文本描述和图像可能对应关系

      • 让图像 patch 和文本 token 互相看到,有助于模型更好融合信息

  3. 怎么做到的?attention mask M=0不能看,M=1能看,attention(Q,K,V)=softmax(QK^T/sqrt(d_k)+logM)V差不多就行

最后一个:怎样做到输出2个目标的:

f 的输出被拆分为文本标记 logits 和作输出标记,分别为 yl 1:M , ya 1:H 。前一个 M 对应于可用于采样 lˆ 的文本标记 logit,后面的 H 标记由单独的动作专家生成,如 π0,并通过线性映射投影到用于获得 at:t+H 的连续输出。

结合离散和连续动作表示

这个我看的时候也比较稀里糊涂,是不是pre-train的时候discrete,然后post-train的时候向量场比较接近continuous的了?

第一段:结论是训练的时候用离散token,推理的时候用flow matching生成连续的

flowmatching是生成连续动作序列,而不仅仅是离散token

FAST又发现离散token对训练更加高效

但是离散的action有3个问题:需要逐步autoregressive,效率低,且动作不够平滑。

所以采用一种思想:训练的时候用离散token,推理的时候用flow matching生成连续的

问题:

  1. action是离散还是连续的?在机器人学习中,一个动作(action)不是一个离散标签,而是一个向量

    在数学和统计学中,"离散"(discrete)和"连续"(continuous)是描述数据或变量类型的两个基本术语

    离散(Discrete):离散数据或变量只能取特定、分离的值。这些值通常是整数(如人口数量、汽车数量)或有限集合中的成员(如血型、眼睛颜色)。离散变量之间没有“中间”值;它们是不连续的。例如,如果你有一个表示家庭孩子数量的离散变量,那么可能的值是0、1、2、3等,而不可能是1.5或2.3。

    在统计建模中,离散变量经常用于分类任务,因为它们表示的是有限的、不连续的类别或标签。

    连续(Continuous):连续数据或变量可以在一个给定的范围内取任意值,这个范围通常是一个实数区间。例如,温度、身高、体重或时间都可以是连续变量。连续变量具有无限多个可能的值,并且这些值之间的变化是平滑的。在理论上,两个连续值之间总是可以找到一个更小的间隔,使得变量可以取这个间隔内的任何一个值。在统计建模中,连续变量经常用于回归任务,因为回归模型旨在预测一个连续的结果或输出值。

2. 离散 token 只能用于 模仿学习阶段(imitation pretraining)
因为它们需要 autoregressive 解码,逐个预测下一个 token,速度慢

3. flow matching 是一种 连续生成方法,和 autoregressive 不同。
它不是预测下一个 token,而是:

  • 学习从高斯噪声流向真实动作的“流动场”(vector field);

3. 怎样把连续的action给离散化表示 FAST tokenizer

4. 连续动作为什么不需要auto-regressive?

    Autoregressive的目标:预测下一个 token 的概率

流程是这样的:输入action连续,先离散化用于加快训练速度(pre-train),然后post-train的时候用flow matching更改动作专家的权重。推理的时候也用flow matching

所以模型的优化目标变成最小化:

交叉熵of 指令 and 预测出来的logits(应该意思是保证输出的指令和原始指令相差不太大?)

flθ​(ot​,l)代表模型从输入的视觉观测 otot​ 和上下文文本 ll 中,预测出每个 token 的分布

logits 就是模型在每个时间步预测的未归一化 token 分数,包括文本和离散动作的预测分布。

+alpha * flow matching的l2 loss

alpha=0的时候就是pre-train,训练出来一个VLM的模型。

在这种情况下:

  • 模型的任务是:
    “给定视觉输入 otot​,预测下一个 token(文本或离散动作 token)。”

  • 所以它的训练目标与一个标准的 视觉-语言 Transformer (VLM) 完全一致:
    学习从视觉输入到文本 token(或离散化后的动作 token)的映射。

L2 loss(也称为均方误差损失 / Mean Squared Error, MSE)是机器学习中最常用的回归类目标函数之一。

L2 loss 衡量的是模型预测值与真实值之间的欧几里得距离平方(squared Euclidean distance)
它让模型学会让预测结果尽可能靠近真实值。

yy​∥2​

Cross-Entropy Loss

−ylog⁡(p^)−ylog(p^​)

用于分类任务(概率分布)

文本/图像分类,token 预测

KL Divergence

∑plog⁡(p/q)∑plog(p/q)

比较两个分布的差异

生成模型、对齐分布任

还有几种损失,l1 loss就不说了

pre-train

一个标准的自回归转换器,对文本、对象位置和 FAST 编码的作令牌执行下一个令牌预测

对于所有动作数据,我们训练模型以预测目标关节和末端执行器姿势。为了区分两者,我们在文本提示中添加了“<控制模式>关节/末端执行器<控制模式>”。使用单个数据集的每个动作维度的 1% 和 99% 分位数将所有动作数据归一化为 [−1, 1]。我们将动作 a 的维数设置为固定数字,以容纳所有数据集中最大的动作空间。对于具有低维配置和动作空间的机器人,我们将动作向量置零。

post-train

VI这个数据集什么形式?

机器人系统详情

18-19 个 DoF 状态和动作空间


实验分析

之前有一个问题:怎样验证generalization capability?

最终评估是在三个不属于训练集的真实家庭中进行的,侧重5个问题:

  1. π0.5 能否有效地推广到全新家庭中复杂的多阶段任务?

  2. π0.5 的泛化如何与训练数据中不同环境的数量成比例?

  3. π0.5 训练混合物中的各个协同训练成分如何影响其最终性能?

  4. π0.5 与 π0 VLA 相比如何?

  5. π0.5 的高级推理组件有多重要,它与平面、低级推理以及预言机高级基线相比如何?

泛化到真实场景新环境

成功分数评估,结果:这种水平的野外泛化大大超出了先前视觉-语言-行动模型所展示的结果,无论是在模型必须处理的新颖程度方面,还是在任务持续时间和复杂性方面

泛化如何随场景数量缩放

测量泛化如何随训练数据中看到的环境数量而扩展。也就是模型在训练中看到的环境越多,泛化能力是否越强?

指标:多阶段任务的端到端性能(如放碗到水槽、收纳物品、叠衣服、整理床铺)。

语言指令跟随能力:机器人是否能根据语言命令拾取特定物体并放到正确位置,包括对新物体(out-of-distribution objects)的处理能力

训练过程:后训练(post-training):每组训练数据包含不同数量的移动操作环境。

测试的时候还是mock环境

结果:

  1. 泛化随环境数量增加而增强:模型在多阶段任务和语言指令跟随上表现更好。

  2. 多数据源联合训练(co-training)是关键:仅依赖测试环境或单一训练环境数据,模型泛化能力有限。

  3. 语义泛化需要更多场景:模型对未见物体类别的表现随着环境数量增加而改善,但速度慢于已见类别。

实验编号

|

实验名称 / 目的

|

实验设置

|

训练数据 / 对比

|

评估指标

|

结果图 / 表格

|

简短分析

1

|

多阶段任务端到端泛化

|

训练环境数量变化:3, 12, 22, 53, 82, 104

|

预训练:机器人动作数据(无移动操作数据);后训练:不同数量移动操作环境

|

端到端任务成功率(放碗、收纳、叠衣服、整理床铺)

|

Figure 8

|

平均任务性能随训练环境数量增加提升;104 环境模型接近直接在测试环境训练的模型,说明多环境训练可有效提升泛化。

| |

2

|

语言指令跟随能力

|

同上

|

同上

|

1)Language following rate(选择正确物体频率);2)Success rate(物体放置正确率);分 in-distribution 和 out-of-distribution 对象

|

Figure 9

|

随训练环境数量增加,语言跟随和成功率均提高;in-distribution 对象提升快,out-of-distribution 对象提升慢但明显改善,表明模型语义泛化能力随环境增多而增强。

|

各个协同训练成分如何影响其最终性能

目的:研究 π0.5 模型在多任务、多环境下的泛化能力,以及不同训练数据来源(mixture components)对性能的重要性。

训练数据组成

  1. MM:多环境移动操作机器人数据

  2. ME:多环境非移动(静态)机器人数据

  3. CE:实验室跨机器人/跨任务数据

  4. HL:高层语言指令数据

  5. WD:Web 数据(图像描述、VQA、物体定位)

  6. VI:后训练阶段的 verbal instruction 数据

实验方法:对比全模型(full recipe)与去掉不同数据源的 ablation 版本:

  • no WD:去掉 Web 数据

  • no ME:去掉多环境非移动数据

  • no CE:去掉实验室跨机器人数据

  • no ME or CE:同时去掉 ME 和 CE,只保留目标移动机器人数据 + Web 数据

评估指标

  1. 端到端任务性能:在 mock home 中完成多阶段任务(Figure 10 + Appendix D)

  2. 语言指令跟随能力:语言指令驱动的物体抓取/放置任务(Figure 11),包括 in-distribution 和 out-of-distribution 对象

Ablation / 模型

|

端到端任务性能(mock home)

|

语言跟随能力

|

结论 / 分析

Full recipe (MM+ME+CE+HL+WD+VI)

|

最好

|

最好

|

利用跨环境、跨任务、Web 和语言数据,表现最优

| |

no WD

|

无显著下降

|

OOD 对象明显下降

|

Web 数据对端到端任务影响不大,但对未见对象和高层语言推理至关重要

| |

no ME

|

显著下降

|

显著下降

|

多环境非移动数据有助于跨环境泛化和语言跟随能力

| |

no CE

|

显著下降

|

显著下降

|

跨任务/跨机器人数据对模型泛化和任务性能同样重要

| |

no ME or CE

|

最差

|

最差

|

同时去掉两个跨机器人数据源严重削弱性能,表明跨任务与跨环境知识传递对 π0.5 至关重要

|

核心结论

  1. 跨环境与跨任务数据至关重要:ME 和 CE 数据为模型提供了跨环境、跨机器人和跨任务的迁移能力。

  2. Web 数据影响语言泛化:虽然对端到端任务影响有限,但对未见类别的语言指令理解和推理能力显著提高。

  3. 联合训练效果最好:full recipe 利用所有数据源,性能优于任何 ablation 版本。


💡 一句话总结
π0.5 的泛化能力依赖于跨环境/跨任务数据提供的迁移能力以及 Web 数据提供的广泛物体语义知识,去掉任何关键数据源都会显著降低性能,尤其是在语言指令跟随和未见对象任务上。

比较其它vla

目的:比较 π0.5 与现有 VLA 模型在移动操作任务上的表现,并验证 co-training 和额外数据源(HL、WD)对性能的贡献。

对比模型

  1. π0:原始 VLA 模型,强于复杂移动操作任务,始终使用 action expert(连续动作预测)。

  2. π0-FAST+Flow

    • 使用 Equation (1) 的联合 FAST + diffusion 方法训练

    • 仅使用机器人动作数据,不包含 HL 或 WD

    • 遵循 hybrid 训练:预训练离散 token,post-training 使用 flow action expert

    • 无法做高层推理(因为缺少 HL 数据)

  3. π0.5(目标模型):

    • 使用 co-training:动作数据 + 高层语言数据(HL)+ Web 数据(WD)

    • 训练流程:预训练离散 token → post-training 使用 flow action expert

训练控制

  • 所有模型使用同样的跨机器人(cross-embodiment)训练数据

  • 训练步数可比较,保证公平性

评估指标

  • 多阶段移动操作任务端到端性能

  • 高层推理能力(HL 数据任务)

  • 语言指令跟随(WD 数据任务)


实验结果总结

模型

|

数据源

|

训练方式

|

高层推理能力

|

端到端性能

|

分析 / 结果

π0

|

动作数据

|

action expert 全程

|

可以做低层动作,但无 HL / WD,高层推理能力有限

|

基线水平

|

原始 VLA 表现良好,但缺少高层语义任务能力

| |

π0-FAST+Flow

|

动作数据

|

hybrid 训练(离散 token + flow)

|

无 HL / WD → 无高层推理能力

|

略优于 π0(计算效率更高)

|

FAST + flow 提高了训练效率,但仍无法处理高层任务

| |

π0.5

|

动作 + HL + WD

|

hybrid 训练 + co-training

|

支持高层指令推理和语言任务

|

显著优于 π0 和 π0-FAST+Flow

|

高层数据 + co-training 提升了泛化能力和高层任务表现,即使 π0 训练步数增加到 300k 也无法匹配 π0.5

|


核心结论

  1. π0.5 优势明显:在端到端任务和高层指令任务上,性能显著优于原始 π0 和 π0-FAST+Flow。

  2. 原因分析

    • **高层语言数据(HL)Web 数据(WD)**增强了高层推理能力

    • co-training + hybrid 训练 提高了泛化能力和训练效率

    • 仅动作数据训练的模型无法处理 HL 任务,也缺乏语言推理能力

  3. 计算效率:使用 FAST tokens 的 hybrid 训练比纯 diffusion 更节省计算资源,同时保持性能。


💡 一句话总结
π0.5 利用动作数据 + 高层语言数据 + Web 数据的联合训练,以及离散 token + flow 的 hybrid 训练流程,在移动操作任务上不仅端到端表现更好,还能处理高层语言推理任务,全面超越现有 VLA 模型。

高级推理有多重要

目的:评估高层推理机制对模型整体性能的贡献,并分析不同训练数据和高层策略的作用。

高层推理机制(π0.5)

  • 输入:高层命令(如 “clean the bedroom”)

  • 输出:对应子任务(如 “pick up pillow”)

  • 该子任务作为上下文提供给低层动作推理模块(类似 chain-of-thought 推理)

对比方法 / Ablation(所有方法低层动作推理保持 π0.5 流程一致):

方法

|

高层策略

|

训练数据 / 说明

1. Full π0.5

|

π0.5 模型本身

|

高层 + 低层推理,使用全部数据(MM+ME+CE+HL+WD+VI)

| |

2. no WD

|

π0.5 模型

|

去掉 Web 数据

| |

3. no VI

|

π0.5 模型

|

去掉 verbal instruction 数据

| |

4. implicit HL

|

无高层推理

|

训练包含高层任务数据,但运行时不显式推理高层子任务

| |

5. no HL

|

无高层推理

|

训练和运行都不包含高层任务数据

| |

6. GPT-4

|

GPT-4 作为高层策略

|

零样本使用 GPT-4,高层选择子任务列表,未在机器人数据上训练

| |

7. human HL

|

人类专家

|

上限性能(oracle)

|

评估指标

  • 多阶段移动操作任务端到端成功率

  • 语言指令跟随性能

  • 子任务预测准确率(高层策略效果)

  • 参考 Figure 13 + Appendix D, Figure 17


实验结果总结

方法

|

性能表现

|

结论 / 分析

Full π0.5

|

最好,甚至超过 human HL

|

高层推理 + co-training 数据混合提升性能,显示显式高层推理的重要性

| |

implicit HL

|

第二

|

不执行显式高层推理,但训练包含高层数据 → co-training 数据本身已经提供大部分收益

| |

no HL

|

明显下降

|

缺少高层数据和推理 → 子任务预测能力缺失,性能大幅下降

| |

no VI

|

显著下降

|

虽然 verbal instruction 数据量小 (~11%),但对高层策略表现至关重要

| |

no WD

|

显著下降

|

Web 数据对高层推理和任务语义理解有重要贡献

| |

GPT-4

|

最差

|

零样本 GPT-4 无法适应机器人数据 → 高层策略需要针对机器人环境训练

| |

human HL

|

接近 Full π0.5

|

作为上限参考,Full π0.5 已达到甚至超过人类专家表现

|


核心结论

  1. 显式高层推理提升性能:Full π0.5 显著优于不执行高层推理的 ablation(no HL / implicit HL)。

  2. co-training 数据混合关键:即使不执行显式推理,训练中包含高层任务数据也能获得大部分高层策略收益。

  3. 小型 verbal instruction 数据影响大:即便仅占 11%,去掉 VI 数据会显著降低性能。

  4. Web 数据提升高层策略:提高语义理解和子任务选择能力。

  5. 零样本 GPT-4 不够用:高层策略必须结合机器人数据训练,否则性能很差。


💡 一句话总结
高层推理在 π0.5 中极大地提升了子任务预测和端到端任务表现,而 co-training 数据(HL + VI + WD)对学习高层策略至关重要,即便显式推理未执行,也能从训练数据中获得大部分高层能力。


最后

π0.5 模型的总结与优势

  • π0.5 是在 π0 VLA 基础上开发的 联合训练(co-trained)模型,整合了多种数据源:

    • 移动机器人操作数据 (~400小时)

    • 其他机器人数据(非移动操纵器、多环境、实验室数据)

    • Web 数据

    • 高层语言指令预测数据(HL & VI)

  • 泛化能力

    • 能够在训练中未见过的家庭环境执行任务

    • 可完成多阶段、精细操作任务,如清理厨房/卧室、叠床、挂毛巾等

  • 关键原因:联合训练不同来源的数据,使得模型能够有效迁移知识,即使移动操作数据量中等,也能实现广泛泛化


2️⃣ 局限性

  • 特定环境难点

    • 机器人对不熟悉的把手或难开的柜子操作困难
  • 部分可观测性问题

    • 机器人手臂可能遮挡任务对象(如溢出物)
  • 高层子任务推理容易分心

    • 如收纳物品时反复开关抽屉
  • 提示(prompts)复杂度有限

    • 模型当前只能处理较简单指令

    • 更复杂或多样化的指令需要更多训练数据或人工/合成标注


3️⃣ 未来工作方向

  1. 改善联合训练与迁移能力

    • 提高模型在困难环境和部分可观测情况下的稳定性

    • 利用更大规模或更多样的数据

  2. 增强高层语言和指令理解能力

    • 支持更复杂和多样化的指令

    • 通过人类标注或合成数据扩充训练

  3. 提升记忆和上下文能力

    • 处理部分可观测场景(跨房间任务、对象位置记忆)
  4. 探索更多异质数据源

    • 利用 verbal instruction 作为新的监督信号

    • 尝试更多人类提供上下文知识的方式


4️⃣ 总结性观点

  • π0.5 展示了通过联合训练不同数据源,VLA 可以在真实世界环境中实现广泛泛化

  • 当前模型仍有改进空间(环境复杂度、部分可观测、指令复杂度)

  • 未来的 VLA 可以进一步利用更多异质数据源、增强记忆和语言理解能力,向更广泛的现实场景泛化

和pi0的区别

  1. pi05目标侧重开放世界泛化,pi0没到这种程度,当时只是构建一个基础模型。可以说π₀.₅更强调多源知识迁移,π₀更强调模型可扩展性
  2. 所以,0.5更强调异构数据,多样性;0.5只是大量,虽然也挺多,但是没有用到网络规模的数据作为vlm的参考。
  3. π₀.₅使用混合离散-连续行动表示,而π₀专注于流匹配。
  • ​π₀.₅论文​​:使用分层架构,预训练阶段用离散令牌(FAST编码),后训练阶段加入流匹配专家。方法包括高级推理(语义子任务预测)和低级行动推理。

  • ​π₀论文​​:基于预训练VLM(PaliGemma),添加流匹配专家用于连续行动块预测。使用双向注意力掩码和时间步采样。

​差异​​:π₀.₅的分析方法更复杂,结合了离散令牌和流匹配,以平衡训练效率和推理速度;π₀则简化了流程,纯流匹配用于高频控制。两者都使用Transformer骨干,但π₀.₅增加了高级推理组件。 ## 结果 1. pi0.5用了FAST:一种名为FAST的基于离散余弦变换的新型机器人动作标记方案,通过压缩连续动作信号,实现高频率机器人数据的有效训练,进而构建自回归视觉-语言-动作(VLA)模型 2. 比pi0泛化性更强,而且用了高级/低级语言指令,但是也没办法摘出来,不是所有vla的共性,更何况是post-train的