模型训练黑话

发表于 2025-08-20 更新于 2025-08-22 分类于 model

“冻结”的模型在训练时是只做 forward，不做 backward。= 只做推理，不参与训练

对齐？

checkpoint：保存模型

embedding层是干啥的？干了一些得到task的工作？把图像嵌入、语言嵌入、状态嵌入拼接成一整段前缀序列，并且同时构造：

pad_masks：标记哪些 token 是“真实的” (1) 哪些是 padding (0)；

att_masks：标记这个 token 属于哪一类域（0=图像/语言，1=状态/动作），以便后面 make_att_2d_masks 限制注意力连接。

概括之后，构造条件输入序列