VideoWorld: Exploring Knowledge Learning from Unlabeled Videos

做的是从视频数据中获得action的工作。(17/100)

时间紧迫就这么写了,以后有空的话再补。 遗留下来的问题

  1. LDM只知道里面两个block是什么和大概做了什么,具体的还不懂
  2. IDM map是什么

从视频中获取知识,无监督,纯视频。论文Figure3是整体框架(从下向上看)

首先,LDM 将从每个帧到其后续 H 帧的视觉变化压缩为一组潜在代码。然后,自回归转换器将 LDM 的输出与下一个标记预测范式无缝集成。

说人话,VQ-VAE搞压缩,然后auto-regression搞预测(这个时候输出的还是图像)。用IDM映射到action

怎么评估生成的视频是好还是坏的?

用CALVIN为例。在 CALVIN 基准测试中,我们的模型在具有桌子、可打开抽屉、彩色块以及 LED 和灯泡的环境中控制带有平行钳口夹持器的 Franka Emika Panda 机器人。我们评估三个任务:推块、打开/关闭抽屉和打开/关闭灯。每个任务都由一个指令标签指定,例如 “go push the red block right”,该标签作为视频生成的条件提供给 transformer。

评估标准包括

  1. success rate评估的。生成的action指令
  2. 泛化性 RLBench上做的