CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks
来不及自己看了,量子速读,发动!
(18/100)
what do i need from it?
- 数据集什么样:包含24小时的远程操作“玩耍”数据和20,000条语言指令,这些数据通过无脚本的互动收集,具有任务无关性和多样性。
- 数据集怎么采集的
CALVIN 的数据集通过以下方式收集,主要分为两部分:无脚本的远程操作“玩耍”数据和语言指令标注。
- 无脚本的远程操作“玩耍”数据
- 数据收集方式:使用 HTC Vive VR 头显进行远程操作,操作者在四个不同的环境中自由探索和互动,不受预定义任务的限制。
- 数据量:共收集了 24 小时的数据,每个环境约 6 小时,总计约 240 万次交互步骤和 4000 万个短时程窗口(每个窗口持续 1-2 秒)。
- 操作者:由三名未受过专门训练的操作者完成,他们被要求“在不将物体从桌子上掉落的前提下探索环境”。
- 互动内容:包括拾取和放置物体、打开和关闭抽屉、滑动门、按下按钮、操作开关等无目标导向的行为。
- 语言指令标注
- 标注方式:通过众包平台收集了 400 多条自然语言指令,对应 34 个具体任务。这些指令与机器人交互数据对齐。
- 标注比例:仅对 1% 的机器人交互数据进行语言标注,以模拟现实场景中无法为所有数据提供语言标注的情况。
- 语言嵌入:提供了预计算的语言嵌入(使用 MiniLM 模型),将句子映射为 384 维向量。
- 任务示例:例如“旋转红色方块向右”、“将蓝色方块推入抽屉”、“打开滑动门”等。