Task Reconstruction and Extrapolation for π0 using Text Latent

好久没看论文了,复建复建

在看这篇论文之前,第一想法 extrapolation,相比interpolation 文本处理 做泛化性的 模型是pi0

introduction

extrapolate:to guess or think about what might happen using information that is already known interpolate:to add something in the middle of a text, piece of music

为什么这里用extrapolation而不是直接用inference

验证vla是不是真的能推断,还是只是会重复,我感觉模仿学习的就是单纯的重复?

text latent:“it is a task-specific vector derived from the models’ hidden states” (Li, 2025, p. 1) 也就是说,text latent是对任务编码,可以用在模型里面重建任务行为。说白了就是这个玩意指导模型的action,应该是比所有observation更加顶层的东西。Quest is leader(毕竟是vla,l好像没啥存在感)

此外,我们发现在不同任务中使用的技能可以通过混合各自的潜在文本来组合以产生新颖的行为。

为什么只有推理的时候??只在推理做就能验证模型已经学到了

残差 stream 后面接的是什么?

在 Transformer 中,每一层的 residual stream(通常就是 token 的 hidden states)是这样的:

  1. 进入某个子层(比如 Multi-Head Attention 或 MLP)。

  2. 子层输出 + 输入(残差连接) → 得到新的 residual stream。

  3. 这个 residual stream 会:

    • 作为下一层 Transformer block 的输入;

    • 最后在最后一层时,经过 LayerNorm → 输出 → 送到 LM head(softmax over vocab)或者其他任务 head(比如 action predictor)。

所以回答你的问题:

  • 中间层的 residual stream:会传给下一层 Transformer。

  • 最后一层的 residual stream:会经过投影矩阵/LM head,产生输出概率分布。

🔤VLA 具有表现出空间过度拟合的共同模式,将对象名称与对象在演示场景中的空间位置相关联,而不是实现真正的对象和目标理解🔤 vla在ood的任务表现怎么样?那我的论文里面那些抓取任务就是ood任务了,任务内容不变,对象形状改变了就识别不出来。

text latent: “is a task-specific vector and collected from the model’s internal states. By injecting a text latent back into the model, the associated task behavior can be activated” (Li, 2025, p. 2)

text latent这个概念好抽象,本来就是隐式的了

为了识别给定任务的潜在文本,我们在相应的任务演示上运行π0,并记录每个Transformer层的文本标记的隐藏状态。在此之后,我们对所有收集的层特征进行平均并获得文本潜在。 > 这个是能记录的吗?记下来也没用啊

对于文本来说,模型读到 prompt 或指令后,会把它编码成一系列 token hidden states,这些就是“text latent”的来源。

此外,我们发现,通过使用文本潜在插值(TLI)来混合两个文本潜在,我们可以将两个任务中使用的子行为或技能结合起来。TLI 将两个各自文本潜在物的时间插值注入残差流,混合比在每个时间步长线性调整。

这个操作的目的是为了让模型能通过插值组合以前的task,不需要另外训练就能做出以前没做过的动作轨迹。

看完上面的introduction部分,现在的理解是 1. 文章解决的问题是:如何让VLAs能够完成需要重组已学子技能的新任务,而无需额外的训练数据。 2. text latent感觉怪怪的,看一下代码是不是我理解的:smolvla里面就是text->lm->的那一部分token(之前有过数量不一致的) 3. text latent直接加入推理里面难道不会让模型原来能做到的都做不到吗?

所以它不是做没见过的物体,而是把任务A和任务B组合起来,类似做轨迹融合?主要前提是机器人在这之前做不到这一点 不过感觉跟我想要的还是有点差距的,我想做的是尽可能多地融合一些信息到文本里面(?)

introduction看完了,现在大概能确定: - [ ] 解决的问题是:如何让VLAs能够完成需要重组已学子技能的新任务,而无需额外的训练数据。那相关工作里面应该是vla和下面的可解释性? - [ ] 为什么有可解释性?- 不训练新模型,而是挖掘现有模型内部已经学到的表示要做到这一点,必须先理解模型内部的工作机制

related works里面说明了这篇文章做的是vla+可解释性。

看到这里更清晰一点了:做的就是想办法组合任务技能。但是只做了pick-and-place

继续看后面的内容,看之前的疑问 - [ ] text latent是什么,怎么量化任务指令的表示?模型一开始会做抓取物体a放到b,抓取物体b放到c。想让它直接做:抓取物体a放到c。text latent怎么组合? - [ ] 把任务线性插值能插到什么程度 - [ ] 这个也没有真正解决泛化性的问题,但毕竟改了一点。我能从中得到什么启发吗? - [ ] 能不能做动态物体的pick-and-place?

method

基于transformer的vla的原理,text latennt是什么,以及怎样用它们来改变模型的内部表示。 现在的vla咋整的:先用vlm编码器处理多模态,融合,

本体感知一般都是连续的,和离散的任务不一样,所以一般不用先分词