RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation
看上去是那种一句话生成仿真环境的。
- 一句话->llm生成代码?assets还是得自己搞吧->传到环境里面这个流程?
- 基本流程是propose-generate-learn
- 不是直接生成代码,与最近采用大型语言模型等基础模型直接产生策略或低级行动的努力相比,robogen只提取完全属于这些模型的能力和模式的信息——对象语义、对象可供性、关于哪些任务值得学习的常识性知识等。不过我也不知道这个指什么
- 用的什么环境,issac gym吗,居然是genesis
- asset有没有好用的数据库
里面提到几个,还有图片生成mesh的,没有考虑collision吗
- 放置asset的时候,RoboGen 指示 GPT-4 以无碰撞的方式放置对象:当 LLM 生成对象的初始姿势时,我们会提示它利用其基本的空间理解,并尝试将对象放置在不同的位置。我们将其用作初始化,并检查初始场景配置中的潜在冲突。对于两个对象之间检测到的任何碰撞,我们识别接触对象的碰撞节点,并沿碰撞法线的相反方向推开它们的质心以解决碰撞。
- collision-free 动作基元与运动规划相结合,在解决任务时更可靠,例如通过无碰撞路径接近目标对象
- 看起来论文里面涉及到collision的就这些了,那collision属性不考虑了?
- 看样子是2finger机器人,什么模型抓取的,视觉? 居然是吸盘式的
1,2章不用花太多时间看,直奔第三章
RoboGen
过程
- propose a task
- seed=robot type+random object
- gpt generate obj and task描述
- scene 生成,也就是填充asset(设计到软体obj的比较麻烦)
- 监督训练生成
- 分解task
- 选择适合的算法(三选一:强化学习,基于梯度轨迹优化,运动规划)
- 选择吸盘防止gripper难处理
- skill learn
验证指标
- task多样性
- 场景验证:BLIP-2 score
后续工作
只看2024年以来的 1. DataPlatter: Boosting Robotic Manipulation Generalization with Minimal Costly Data 1. spatial reasoning phase (SRP) 机器人对空间的理解 2. 将训练轨迹分解为不同任务阶段的框架,并利用大量易于收集的 SRP 数据来增强 VLA 模型的泛化能力 3. robogen:带有任务反汇编的强化学习 (RL) 缺乏任务多样性,并且经常涉及简化的物理模拟,这对于实际部署来说是不切实际的。 4. IsaacSim,panda,生成语言指令,大幅度提高 OOD 目标的泛化性能 5. 大部分任务处理过程一般可以分为两个阶段:空间推理阶段(SRP)和物理交互阶段(PIP) 2. Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation 1. RoboGen被描述为通过GPT-4生成任务提案和场景配置,以支持生成式仿真(generative simulation)的实现。 2. 通过重写人类标注的观察-指令对生成新数据,利用基础模型(VLMs、LLMs、T2IMs)实现无需模拟器且节省劳动力的数据增强。 3. GR00T N1: An Open Foundation Model for Generalist Humanoid Robots 1. 通用机器人 2. RoboGen验证:在模拟中生成训练数据是一种实用的替代方案。 3. 双系统:reasoning module: 是一个预训练的VLM,在 NVIDIA L40 GPU 上以 10Hz 运行。该模块处理机器人的视觉感知和语言指令,以解析环境并理解任务目标。action module: 是一个基于Diffusion Transformer 的模型,经过动作流匹配训练。该模块交叉注意 VLM 的输出 token,并利用具身结构特定的编码器和解码器,处理不同机器人形态下的状态和动作维度,实现运动生成。它以更高的频率(120Hz)生成闭环运动控制信号。 4. 搞了一个很高级的数据集 5. 基于 VLM的推理模块(System 2)和基于 DiT 的动作模块(System 1) 6. 看不下去,csdn 感觉这篇精读写得挺好的。虽然这篇没法复现但我还是想学习思路,以后有空或者不想学的时候逼自己看看 4. HybridGen: VLM-Guided Hybrid Planning for Scalable Data Generation of Imitation Learning 1. HybridGen,一个自动化的框架,集成了视觉语言模型(VLM)和混合规划。 2. data generation 3. 使用VLM和LLM进行基于模拟的数据生成。RoboGen和RobotWin 使用3D生成模型和LLM来创建各种数据。虽具备场景理解能力,但缺乏对机器人运动学和动力学的建模,难以生成精确轨迹。 4. 两阶段数据增强流程:第一阶段(任务分解与初步增强)第二阶段(大规模扩展) 5. 感觉这种精细的任务都要用专家数据,丫生成的是什么样的机器人和任务?还是2gripper啊 5. ReBot: Scaling Robot Learning with Real-to-Sim-to-Real Robotic Video Synthesis 1. ReBot,一种real2sim2real方法,用于扩展真实机器人数据集并将 VLA 模型适配到目标领域 2. 视觉-语言-动作 (VLA) 模型 3. RoboGen:模拟数据集是更容易访问和更具成本效益的替代方案,因为它们可以在模拟环境中生成,而无需真实世界的设置。不幸的是,动作空间和观察空间中的模拟到真实的差距阻碍了机器人策略推广到现实世界的应用,限制了模拟数据对推进VLA的有效性。 4. ReBot 在模拟中重放真实世界的机器人轨迹以使操作目标多样化(真实-到-模拟),并将模拟运动与修复的真实世界背景相结合,以合成物理上逼真且时间上一致的机器人视频(模拟-到-真实) 5. 无code 6. MoMa-Kitchen: A 100K+ Benchmark for Affordance-Grounded Last-Mile Navigation in Mobile Manipulation 1. 最终导航位置,基准数据集,也是生成数据的 2. 视觉数据是从安装在机械臂上的第一人称视角摄像头捕获的RGB-D输入中收集的 3. robogen:一些方法使用视觉语言模型或程序方法在模拟环境中自主生成可扩展的语言注释。尽管有这些进步,导航数据集往往提供丰富的空间信息,但缺乏后续操作过程中的最佳定位的指导,而操作手册,尽管提供有价值的交互数据,不完全捕捉通过导航实现最佳抓取位置的复杂性。 4. 采用了BestMan,这是一个基于PyBullet的模拟平台,集成了PartNet-Mobility的asset,平行夹爪 5. 生成的数据集包括:场景配置(包括障碍物),视觉数据,机器人参数,Affordance标签(地面位置能否支持机器人成功操作目标物体的量化指标) 1. 这个Affordance标签有点牛啊,能给出可以抓取成功的位置(相当于机械臂,没有关心手。虽然没用但是可以借鉴思路) 7. LuciBot: Automated Robot Policy Learning from Generated Videos 1. 给定初始模拟帧和文本任务描述,视频生成模型产生具有正确语义的演示任务完成的视频。然后,我们从生成的视频中提取丰富的监督信号,包括6D对象姿势序列,2D分割和估计深度,以促进模拟中的任务学习。 2. 生成视频->去掉手,得到要操作的物体的轨迹->加入平行机器人 3. 模拟平台Genesis woc??? 4. 没懂怎么生成动作序列的,这篇文章再看看,虽然不是灵巧手,精读?但是没代码啊,先看完别的吧 5. RoboGen:生成 3D 目标状态的方法在面团形成等任务中表现良好,但难以表示更复杂的目标,例如定义舀沙的 3D 目标或准确建模切割的面团。 6. 无code 8. Integrating Failures in Robot Skill Acquisition with Offline Action-Sequence Diffusion RL 1. 视觉语言条件下的动作序列扩散策略和一个动作序列扩散策略学习与Qlearning的细化的培训 2. RoboGen:利用llm和基于采样的任务和运动规划实现可扩展的语言驱动机器人数据生成,但生成轨迹里面包括success和failure 3. 利用扩散模型,失败数据生成动作轨迹的,平行夹爪 9. MatchMaker: Automated Asset Generation for Robotic Assembly 1. 生成asset 2. 能自动解决asset的collision问题吗?大小?pos? 3. 什么环境? 4. robogen:相关研究已经证明了在模拟环境中自动收集大规模演示数据的价值。 5. 可惜代码大概6月才发布,generate asset这个问题不错,就是不知道效果咋样,可以做螺纹吗?这篇还可以的,生成组件asset 6. cad在3d数据结构里面是啥定位 7. 可以使用基于扩散的形状完成方法自动生成多样化的,模拟兼容的配对资产。目标是利用单个资产生成过程来实现配对资产生成。与生成两个单独的资产不同,成对资产生成要求两个资产可以无缝组装,即,共享多个接触面 10. Towards Autonomous Reinforcement Learning for Real-World Robotic Manipulation with Large Language Models 1. 复杂人类信息环境的自主强化学习(ARCHIE),这是一种利用GPT-4(一种预先训练的LLM)的无监督管道,可以直接从自然语言任务描述中生成奖励函数。奖励用于在模拟环境中训练RL代理 2. robogen:当前的机器人操作解决方案展示了现实环境中的一些应用示例,大多数需要使用人类专家的反馈进行多个训练阶段。 3. 用ai辅助强化学习完成机器人抓取任务的 11. InfiniteWorld: A Unified Scalable Simulation Framework for General Visual-Language Robot Interaction 1. 基于Nvidia Isaac Sim的通用视觉语言机器人交互的统一和可扩展的模拟器 2. 感觉不错,用issac sim?(sim比gym慢但是精细,) 3. 看了github怎么都没人解决问题,社区环境比较差 12. Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method 1. 多阶段长期视觉语言导航(LH-VLN)任务 2. robogen:对vln数据生成缺乏通用,以来特定的平台和asset 3. 它这个好像不是grasp工作 4. code没放全 13. Online Preference-based Reinforcement Learning with Self-augmented Feedback from Large Language Model 1. llm 强化学习,在线偏好 2. robogen:一些研究探索了使用LPM代替人类监督进行奖励设计,包括生成奖励代码 3. AAMAS的?没看懂它干了什么 4. 在线PbRL中,LLM直接评估低质量轨迹时存在“查询模糊性”(query ambiguity),导致偏好标签准确性低,影响奖励模型学习效率。 14. MobileH2R: Learning Generalizable Human to Mobile Robot Handover Exclusively from Scalable and Diverse Synthetic Data 1. 移动机器人,可以使用高质量的合成数据在模拟器中开发可推广的切换技能,而无需真实世界的演示 2. robogen:从大规模演示中模仿学习,robogen算foundation model 15. Articulate AnyMesh: Open-Vocabulary 3D Articulated Objects Modeling 1. 3D关节对象建模。能够将任何刚性的3D网格转换成其铰接在一个开放的词汇表的方式。给定一个3D网格,我们的框架利用先进的视觉语言模型和视觉提示技术来提取语义信息,允许分割的对象部分和功能关节的建设 2. 可以作为asset mobility Articulated Objects 3. 用dexart的benchmark 4. rbogen提了一下,现有工作已经探索了如何在模拟中进行大规模数据收集的许多不同方面,范围从资产生成、场景生成,任务设计,示范收集,奖励设计等。 16. DemoGen: Synthetic Demonstration Generation for Data-Efficient Visuomotor Policy Learning 1. DemoGen,一个低成本的,完全合成的方法自动演示生成。每个任务只使用一个人类收集的演示,DemoGen通过将演示的动作轨迹适应新的对象配置来生成空间增强演示。视觉观察是通过利用3D点云作为模态并通过3D编辑重新排列场景中的主体来合成的 2. 这个工作连机器人部署都不要了?通过任务与运动规划(TAMP)技术适配动作,并利用3D点云编辑生成合成观察数据 3. 这篇看起来也挺高级的,觉得mimicgen浪费(?) 17. RCareGen: An Interface for Scene and Task Generation in RCareWorld 1. 看不太懂,好像是ui界面 18. ArticuBot: Learning Universal Articulated Object Manipulation Policy via Large Scale Simulation 1. 平行夹持器 2. asset不错 3. 不知道用的什么学习策略:在基于物理的仿真中生成大量演示,通过模仿学习将所有生成的演示提取到基于点云的神经策略中,并执行零拍摄sim2真实的传输到真实的机器人系统 19. Hazards in Daily Life? Enabling Robots to Proactively Detect and Resolve Anomalies 1. 做家庭环境中的异常/障碍检测的 20. Video2Policy: Scaling up Manipulation Tasks in Simulation through Internet Videos 1. 利用互联网RGB视频来重建基于日常人类行为的任务。我们的方法包括两个阶段:(1)从视频中模拟任务生成;(2)迭代地利用上下文LLM生成的奖励函数进行强化学习。我们通过从Something-Something-v2(SSv 2)数据集重建100多个视频来展示Video 2 Policy的有效性,该数据集描述了9个不同任务中多样化和复杂的人类行为。 2. 用视频来生成任务,然后RL完成任务 21. GRS: Generating Robotic Simulation Tasks from Real-World Images 1. 从单个真实世界的RGB-D观察结果创建数字孪生模拟,并完成虚拟代理培训的各种可解决的任务 2. 分为三个阶段:1)使用SAM2进行场景理解与目标分割,并结合视觉语言模型(VLMs)对目标进行描述;2)将识别出的目标匹配为可用于仿真的资产;3)生成与上下文相关的机器人任务。此外,GRS通过引入一个迭代优化的router,逐步完善仿真和测试代码,确保仿真环境符合任务规格且机器人策略可解。 22. Integrating Reinforcement Learning with Foundation Models for Autonomous Robotics: Methods and Perspectives 1. 就是一survey 23. PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks 1. benchmark 2. 不是grasp任务 24. DexMimicGen: Automated Data Generation for Bimanual Dexterous Manipulation via Imitation Learning 1. 可以从少量的人类演示中为具有灵巧手的仿人机器人合成轨迹 2. robosuite做的 3. 双臂协调 25. SkillGen: Automated Demonstration Generation for Efficient Skill Learning and Deployment(或者skillmimicgen,不知道按照哪个) 1. 平行 2. 集成了学习的策略和规划,只需3次人工演示即可解决现实世界的操作任务 3. policy是behavior clone 4. robosuite框架 26. Architect: Generating Vivid and Interactive 3D Scenes with Hierarchical 2D Inpainting 1. 一种生成框架,可以利用基于diffusion的2D图像修复技术来创造复杂、真实的3D具身环境 2. 在从模拟环境中获取到真实的深度和相机参数后,我们首先渲染了一张真实的、仅有背景的照片。将2D图像反向映射到3D点云数据 3. 论文挺好的https://zhuanlan.zhihu.com/p/26599669876 看这个解说 27. Real-World Offline Reinforcement Learning from Vision Language Model Feedback 1. 建立在以前的工作,特别是RL-VLM-F,并提出了一个新的系统,自动生成奖励标签的离线数据集使用偏好反馈的视觉语言模型和文本描述的任务。然后,我们的方法使用带有奖励标签的数据集的离线RL学习策略 2. 证明了该系统对复杂的现实世界机器人辅助穿衣任务的适用性,在该任务中,我们首先使用视觉语言模型在次优离线数据集上学习奖励函数,然后使用学习到的奖励来采用隐式Q学习来制定有效的穿衣策略。我们的方法在涉及操纵刚性和可变形对象的模拟任务中也表现良好,并且显著优于行为克隆和逆RL等基线。总之,我们提出了一个新的系统,可以从未标记的次优离线数据集中实现自动奖励标记和策略学习。 3. robogen:许多其他先前的工作已经探索了基础模型的使用,例如,大型语言模型(LLM),作为生成奖励函数的人类监督的替代品。然而,大多数这些努力都集中在在线RL设置上,并将奖励函数表示为代码,需要访问环境代码和低级别的地面真实状态信息 28. A survey on integration of large language models with intelligent robots 1. 综述 29. DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model 1. DiffGen,一个新的框架,集成了微分物理模拟,微分渲染,和视觉语言模型,使自动和有效地生成机器人演示。给定一个模拟的机器人操作场景和一个自然语言指令,DiffGen可以生成逼真的机器人演示,通过最小化嵌入的语言指令和嵌入操作后的模拟观察之间的距离。嵌入从视觉语言模型中获得,通过可微分模拟、可微分渲染和视觉语言模型组件计算和下降梯度来实现优化,从而完成指定的任务。 2. 2gripper的 30. Learning Reward for Robot Skills Using Large Language Models via Self-Alignment 1. 在没有人类的情况下更有效地学习奖励的方法。我们的方法包括两个部分:首先使用LLM提出奖励的特征和参数化,然后通过迭代自对准过程更新参数。 2. Isaac Gym 31. RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots 1. 仿真框架,借助生成式AI工具创建这些环境,例如大型语言模型(LLM)和文本到图像/3D生成模型 2. 平行 32. Unlocking Robotic Autonomy: A Survey on the Applications of Foundation Models 1. survey 33. ClutterGen: A Cluttered Scene Generator for Robot Learning 1. 生成杂乱场景 2. Pybullet 34. MuEP: A Multimodal Benchmark for Embodied Planning with Foundation Models 1. benchmark,基准 2. 评估复杂场景中具体代理的多模态和多回合交互,并结合细粒度的评估指标 35. EPO: Hierarchical LLM Agents with Environment Preference Optimization 1. 长期决策任务 2. 提出了一个分层框架,将复杂的任务分解成可管理的子目标,利用单独的LLM子目标预测和低级别的行动生成。为了解决为未注释的数据集创建训练信号的挑战,我们开发了一个奖励模型,该模型利用多模态环境反馈来自动生成奖励信号。我们介绍了环境偏好优化(EPO),一种新的方法,从环境的反馈产生偏好信号,并使用它们来训练基于LLM的代理。 3. 环境babyai 4. ALFRED数据集上测试解读日常任务指令的基准,可以控制物体甚至有碰撞,但是没有force,并且物体只是举起和放置,机器人的可移动范围? 36. Environment Curriculum Generation via Large Language Models 1. llm生成环境,但是是给四足机器人用来生成地形的 37. GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs 1. 平行 2. 利用具有多模态和推理能力的编码LLM来创建复杂和现实的仿真任务,包括具有铰接对象的长期任务 38. UBSoft: A Simulation Platform for Robotic Skill Learning in Unbounded Soft Environments 1. 页面没打开,能打开这个https://ubsoft24.github.io/ 2. UBSOFT:无界软环境下机器人技能学习仿真平台 39. A Comprehensive Survey on Inverse Constrained Reinforcement Learning: Definitions, Progress and Challenges 1. survey 40. AnyBipe: An End-to-End Framework for Training and Deploying Bipedal Robots Guided by Large Language Models 1. 双足机器人,llm指导 41. Closed-Loop Visuomotor Control with Generative Expectation for Robotic Manipulation 1.
问题
- 为什么都用平行夹持器?因为平行夹持器已经足够完成对目标物体的6d操作了吗?相比之下dexhand能实现的有什么?
- 没看到抓取fragile物体的论文,缺乏tactile吧
- Articulated 物体的模型(碰撞)