模型训练黑话

“冻结”的模型在训练时是只做 forward,不做 backward。= 只做推理,不参与训练

对齐?

checkpoint:保存模型

embedding层是干啥的?干了一些得到task的工作?把 图像嵌入、语言嵌入、状态嵌入 拼接成一整段前缀序列,并且同时构造:

pad_masks:标记哪些 token 是“真实的” (1) 哪些是 padding (0);

att_masks:标记这个 token 属于哪一类域(0=图像/语言,1=状态/动作),以便后面 make_att_2d_masks 限制注意力连接。

概括之后,构造条件输入序列