vla

发表于 2025-09-29 分类于 it

直觉告诉我这肯定是一大坨一直写不完的东西。

拟合

vla的过拟合会表现成什么样子 overfitting

先看一般的过拟合：过拟合是指机器学习模型在训练数据上表现很好(比如准确率极高)但在新数据(测试集或实际应用场景)上表现明显下降的现象。过拟合=模型对训练数据“细节/噪音”过度敏感，导致泛化能力差! 传统模型过拟合: 训练集表现好，测试集表现差。

大模型过拟合: 可能表现为训练损失(loss)很低，但实际应用中生成的内容不合理(例如胡言乱语)，或者对数据中的噪声(比如标点错误、拼写错误)过于敏感。

大模型的典型过拟合场景:

过度依赖训练数据中的局部模式(例如重复出现的特定短语);在低质量数据上训练时，模型记住了噪声而非语义;在小规模下游任务微调(Fine-tuning)时，如果微调数据量不足，大模型容易过拟合到微调数据。

泛化在 VLA 里的含义

泛化：VLA 能把在训练物体上学到的“操作规律”迁移到新物体、新场景中。
- 比如：训练只用过红杯子，但测试时遇到蓝杯子、不同形状的杯子，甚至一个碗。
- 如果 VLA 仍能理解“这是可抓取的容器”并执行操作，就说明泛化能力强。 ### 拟合在 VLA 里的含义
拟合：VLA 在训练过程中学会“在已知训练物体上完成操作”。
- 比如训练时让 VLA 学会“拿起桌上的红色杯子”。
- 如果它能在训练集里的杯子、桌子场景中成功执行操作，就说明拟合得不错。
过拟合的风险：
- 模型只记住了“训练时那只红杯子”的像素模式，而不是“杯子的一般概念”。
- 结果换个蓝杯子就不会操作了。

环境

仿真环境

LIBERO：机器人持续学习基准环境

LIBERO旨在研究多任务和终身机器人学习问题中的知识转移。成功解决这些问题需要关于物体/空间关系的陈述性知识和关于运动/行为的程序性知识。Libero提供：原则上可以生成无限数量的操纵任务的过程生成流水线。 130个任务分为四个任务套件：LIBERO-空间，LIBERO-对象，LIBERO-目标和LIBERO-100。前三个任务套件具有受控的分布变化，这意味着它们需要转移特定类型的知识。相比之下，LIBERO-100由100个需要转移纠缠知识的操作任务组成。LIBERO-100进一步分为用于预训练策略的LIBERO-90和用于测试代理的下游终身学习性能的LIBERO-10。五个研究课题。三种可视化策略网络架构。三种终身学习算法，具有顺序微调和多任务学习基线。