模型训练黑话

先写着,以后有空再整理

“冻结”的模型在训练时是只做 forward,不做 backward。= 只做推理,不参与训练

对齐?

checkpoint:保存模型

embedding层是干啥的?干了一些得到task的工作?把 图像嵌入、语言嵌入、状态嵌入 拼接成一整段前缀序列,并且同时构造:

pad_masks:标记哪些 token 是“真实的” (1) 哪些是 padding (0);

att_masks:标记这个 token 属于哪一类域(0=图像/语言,1=状态/动作),以便后面 make_att_2d_masks 限制注意力连接。

概括之后,构造条件输入序列

设备

TOPS (Tera Operations Per Second) = 每秒可执行的万亿次整数运算数量。

Tensor Core 是 NVIDIA 从 Volta 架构开始引入的 专门加速矩阵运算的单元,对深度学习的训练和推理特别重要。

它们可以一次性处理 矩阵乘法 + 累加 (MAC) 运算,这是神经网络计算的核心操作。

对 AI 推理和训练,Tensor Core 的作用比普通 CUDA 核心更大。

目标

拟合和泛化这两个概念有什么联系吗?

fitting and generalization

1. 拟合(fitting)

  • 指模型在训练数据上的表现。

  • 如果模型能很好地“拟合”训练集,说明它学到了训练数据中的规律。

  • 拟合的程度常用训练误差来衡量。

    - 欠拟合(underfitting):模型太简单,训练集都学不好。

    - 过拟合(overfitting):模型太复杂,把训练集里的噪声或偶然性也“背”下来。

2. 泛化(generalization)

  • 指模型在未见过的新数据上的表现。

  • 泛化能力强的模型,不仅训练集学得好,在测试集或现实数据上也能保持较低误差。

3. 两者的关系

  • 拟合是前提,泛化是目标

    - 如果模型连训练集都拟合不好(欠拟合),就更不可能泛化好。

    - 但模型拟合得“过头”(过拟合),就会牺牲泛化能力。

  • 所以两者之间存在一个平衡点:

    - 适度拟合 → 泛化效果最佳。

    - 欠拟合/过拟合都会导致泛化能力下降。

vla其实不太好有拟合的表现吧,真的会有吗