CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks

发表于 2025-03-23 更新于 2025-08-22 分类于 paper

来不及自己看了，量子速读，发动！

(18/100)

what do i need from it?

CALVIN 的数据集通过以下方式收集，主要分为两部分：无脚本的远程操作“玩耍”数据和语言指令标注。

无脚本的远程操作“玩耍”数据
1. 数据收集方式：使用 HTC Vive VR 头显进行远程操作，操作者在四个不同的环境中自由探索和互动，不受预定义任务的限制。
2. 数据量：共收集了 24 小时的数据，每个环境约 6 小时，总计约 240 万次交互步骤和 4000 万个短时程窗口（每个窗口持续 1-2 秒）。
3. 操作者：由三名未受过专门训练的操作者完成，他们被要求“在不将物体从桌子上掉落的前提下探索环境”。
4. 互动内容：包括拾取和放置物体、打开和关闭抽屉、滑动门、按下按钮、操作开关等无目标导向的行为。
语言指令标注
1. 标注方式：通过众包平台收集了 400 多条自然语言指令，对应 34 个具体任务。这些指令与机器人交互数据对齐。
2. 标注比例：仅对 1% 的机器人交互数据进行语言标注，以模拟现实场景中无法为所有数据提供语言标注的情况。
3. 语言嵌入：提供了预计算的语言嵌入（使用 MiniLM 模型），将句子映射为 384 维向量。
4. 任务示例：例如“旋转红色方块向右”、“将蓝色方块推入抽屉”、“打开滑动门”等。