模型训练黑话

发表于 2025-08-20 更新于 2025-09-29 分类于 model

先写着，以后有空再整理

“冻结”的模型在训练时是只做 forward，不做 backward。= 只做推理，不参与训练

对齐？

checkpoint：保存模型

embedding层是干啥的？干了一些得到task的工作？把图像嵌入、语言嵌入、状态嵌入拼接成一整段前缀序列，并且同时构造：

pad_masks：标记哪些 token 是“真实的” (1) 哪些是 padding (0)；

att_masks：标记这个 token 属于哪一类域（0=图像/语言，1=状态/动作），以便后面 make_att_2d_masks 限制注意力连接。

概括之后，构造条件输入序列

设备

TOPS (Tera Operations Per Second) = 每秒可执行的万亿次整数运算数量。

Tensor Core 是 NVIDIA 从 Volta 架构开始引入的专门加速矩阵运算的单元，对深度学习的训练和推理特别重要。

它们可以一次性处理矩阵乘法 + 累加 (MAC) 运算，这是神经网络计算的核心操作。

对 AI 推理和训练，Tensor Core 的作用比普通 CUDA 核心更大。

拟合和泛化这两个概念有什么联系吗？

fitting and generalization

- 欠拟合（underfitting）：模型太简单，训练集都学不好。

- 过拟合（overfitting）：模型太复杂，把训练集里的噪声或偶然性也“背”下来。

- 如果模型连训练集都拟合不好（欠拟合），就更不可能泛化好。

- 但模型拟合得“过头”（过拟合），就会牺牲泛化能力。

- 适度拟合 → 泛化效果最佳。

- 欠拟合/过拟合都会导致泛化能力下降。

vla其实不太好有拟合的表现吧，真的会有吗