模型训练黑话
先写着,以后有空再整理
“冻结”的模型在训练时是只做 forward,不做 backward。= 只做推理,不参与训练
对齐?
checkpoint:保存模型
embedding层是干啥的?干了一些得到task的工作?把 图像嵌入、语言嵌入、状态嵌入 拼接成一整段前缀序列,并且同时构造:
pad_masks:标记哪些 token 是“真实的” (1) 哪些是 padding (0);
att_masks:标记这个 token 属于哪一类域(0=图像/语言,1=状态/动作),以便后面 make_att_2d_masks 限制注意力连接。
概括之后,构造条件输入序列
设备
TOPS (Tera Operations Per Second) = 每秒可执行的万亿次整数运算数量。
Tensor Core 是 NVIDIA 从 Volta 架构开始引入的 专门加速矩阵运算的单元,对深度学习的训练和推理特别重要。
它们可以一次性处理 矩阵乘法 + 累加 (MAC) 运算,这是神经网络计算的核心操作。
对 AI 推理和训练,Tensor Core 的作用比普通 CUDA 核心更大。
目标
拟合和泛化这两个概念有什么联系吗?
fitting and generalization
1. 拟合(fitting)
指模型在训练数据上的表现。
如果模型能很好地“拟合”训练集,说明它学到了训练数据中的规律。
拟合的程度常用训练误差来衡量。
- 欠拟合(underfitting):模型太简单,训练集都学不好。
- 过拟合(overfitting):模型太复杂,把训练集里的噪声或偶然性也“背”下来。
2. 泛化(generalization)
指模型在未见过的新数据上的表现。
泛化能力强的模型,不仅训练集学得好,在测试集或现实数据上也能保持较低误差。
3. 两者的关系
- 拟合是前提,泛化是目标。
- 如果模型连训练集都拟合不好(欠拟合),就更不可能泛化好。
- 但模型拟合得“过头”(过拟合),就会牺牲泛化能力。
- 所以两者之间存在一个平衡点:
- 适度拟合 → 泛化效果最佳。
- 欠拟合/过拟合都会导致泛化能力下降。
vla其实不太好有拟合的表现吧,真的会有吗