CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks

来不及自己看了,量子速读,发动!

(18/100)

what do i need from it?

  1. 数据集什么样:包含24小时的远程操作“玩耍”数据和20,000条语言指令,这些数据通过无脚本的互动收集,具有任务无关性和多样性。
  2. 数据集怎么采集的

CALVIN 的数据集通过以下方式收集,主要分为两部分:​无脚本的远程操作“玩耍”数据和语言指令标注。

  1. ​无脚本的远程操作“玩耍”数据
    1. 数据收集方式:使用 HTC Vive VR 头显进行远程操作,操作者在四个不同的环境中自由探索和互动,不受预定义任务的限制。
    2. ​数据量:共收集了 24 小时的数据,每个环境约 6 小时,总计约 240 万次交互步骤和 4000 万个短时程窗口(每个窗口持续 1-2 秒)。
    3. ​操作者:由三名未受过专门训练的操作者完成,他们被要求“在不将物体从桌子上掉落的前提下探索环境”。
    4. ​互动内容:包括拾取和放置物体、打开和关闭抽屉、滑动门、按下按钮、操作开关等无目标导向的行为。
  2. ​语言指令标注
    1. ​标注方式:通过众包平台收集了 400 多条自然语言指令,对应 34 个具体任务。这些指令与机器人交互数据对齐。
    2. ​标注比例:仅对 1% 的机器人交互数据进行语言标注,以模拟现实场景中无法为所有数据提供语言标注的情况。
    3. 语言嵌入:提供了预计算的语言嵌入(使用 MiniLM 模型),将句子映射为 384 维向量。
    4. 任务示例:例如“旋转红色方块向右”、“将蓝色方块推入抽屉”、“打开滑动门”等。