vla
直觉告诉我这肯定是一大坨一直写不完的东西。
拟合
vla的过拟合会表现成什么样子 overfitting
先看一般的过拟合:过拟合是指机器学习模型在训练数据上表现很好(比如准确率极高)但在新数据(测试集或实际应用场景)上表现明显下降的现象。过拟合=模型对训练数据“细节/噪音”过度敏感,导致泛化能力差! 传统模型过拟合: 训练集表现好,测试集表现差。
大模型过拟合: 可能表现为训练损失(loss)很低,但实际应用中生成的内容不合理(例如胡言乱语),或者对数据中的噪声(比如标点错误、拼写错误)过于敏感。
大模型的典型过拟合场景:
过度依赖训练数据中的局部模式(例如重复出现的特定短语);在低质量数据上训练时,模型记住了噪声而非语义;在小规模下游任务微调(Fine-tuning)时,如果微调数据量不足,大模型容易过拟合到微调数据。
泛化在 VLA 里的含义
泛化:VLA 能把在训练物体上学到的“操作规律”迁移到新物体、新场景中。
比如:训练只用过红杯子,但测试时遇到蓝杯子、不同形状的杯子,甚至一个碗。
如果 VLA 仍能理解“这是可抓取的容器”并执行操作,就说明泛化能力强。 ### 拟合在 VLA 里的含义
拟合:VLA 在训练过程中学会“在已知训练物体上完成操作”。
比如训练时让 VLA 学会“拿起桌上的红色杯子”。
如果它能在训练集里的杯子、桌子场景中成功执行操作,就说明拟合得不错。
过拟合的风险:
模型只记住了“训练时那只红杯子”的像素模式,而不是“杯子的一般概念”。
结果换个蓝杯子就不会操作了。
环境
仿真环境
LIBERO:机器人持续学习基准环境
LIBERO旨在研究多任务和终身机器人学习问题中的知识转移。成功解决这些问题需要关于物体/空间关系的陈述性知识和关于运动/行为的程序性知识。Libero提供: 原则上可以生成无限数量的操纵任务的过程生成流水线。 130个任务分为四个任务套件:LIBERO-空间,LIBERO-对象,LIBERO-目标和LIBERO-100。前三个任务套件具有受控的分布变化,这意味着它们需要转移特定类型的知识。相比之下,LIBERO-100由100个需要转移纠缠知识的操作任务组成。LIBERO-100进一步分为用于预训练策略的LIBERO-90和用于测试代理的下游终身学习性能的LIBERO-10。 五个研究课题。 三种可视化策略网络架构。 三种终身学习算法,具有顺序微调和多任务学习基线。