vla

直觉告诉我这肯定是一大坨一直写不完的东西。

拟合

vla的过拟合会表现成什么样子 overfitting

先看一般的过拟合:过拟合是指机器学习模型在训练数据上表现很好(比如准确率极高)但在新数据(测试集或实际应用场景)上表现明显下降的现象。过拟合=模型对训练数据“细节/噪音”过度敏感,导致泛化能力差! 传统模型过拟合: 训练集表现好,测试集表现差。

大模型过拟合: 可能表现为训练损失(loss)很低,但实际应用中生成的内容不合理(例如胡言乱语),或者对数据中的噪声(比如标点错误、拼写错误)过于敏感。

大模型的典型过拟合场景:

过度依赖训练数据中的局部模式(例如重复出现的特定短语);在低质量数据上训练时,模型记住了噪声而非语义;在小规模下游任务微调(Fine-tuning)时,如果微调数据量不足,大模型容易过拟合到微调数据。

泛化在 VLA 里的含义

  • 泛化:VLA 能把在训练物体上学到的“操作规律”迁移到新物体、新场景中。

    • 比如:训练只用过红杯子,但测试时遇到蓝杯子、不同形状的杯子,甚至一个碗。

    • 如果 VLA 仍能理解“这是可抓取的容器”并执行操作,就说明泛化能力强。 ### 拟合在 VLA 里的含义

  • 拟合:VLA 在训练过程中学会“在已知训练物体上完成操作”。

    • 比如训练时让 VLA 学会“拿起桌上的红色杯子”。

    • 如果它能在训练集里的杯子、桌子场景中成功执行操作,就说明拟合得不错。

  • 过拟合的风险

    • 模型只记住了“训练时那只红杯子”的像素模式,而不是“杯子的一般概念”。

    • 结果换个蓝杯子就不会操作了。

环境

仿真环境

LIBERO:机器人持续学习基准环境

LIBERO旨在研究多任务和终身机器人学习问题中的知识转移。成功解决这些问题需要关于物体/空间关系的陈述性知识和关于运动/行为的程序性知识。Libero提供: 原则上可以生成无限数量的操纵任务的过程生成流水线。 130个任务分为四个任务套件:LIBERO-空间,LIBERO-对象,LIBERO-目标和LIBERO-100。前三个任务套件具有受控的分布变化,这意味着它们需要转移特定类型的知识。相比之下,LIBERO-100由100个需要转移纠缠知识的操作任务组成。LIBERO-100进一步分为用于预训练策略的LIBERO-90和用于测试代理的下游终身学习性能的LIBERO-10。 五个研究课题。 三种可视化策略网络架构。 三种终身学习算法,具有顺序微调和多任务学习基线。