embed

这个词语太抽象了,学习一下

原来说白了就是投影……

本质上,embedding 就是把离散或高维输入映射到一个连续向量空间。

对 文本:

每个单词或 token 是一个整数(token id),直接没法做数学运算

embedding 就把 token id → 一个实数向量 [hidden_dim]

形象比喻:把单词“猫”映射成 [0.1, -0.3, 0.5, …],这样它可以和其他向量比较相似性、进行运算。

对 图像:

图像像素 (B, C, H, W) 太大,也无法直接送 Transformer

所以先通过 视觉 encoder(ViT 或 CNN)把图像切成 patch,每个 patch → 一个向量

这些 patch 向量就叫 token embedding(和文本 token 类似)

形象比喻:把图像切成小方块,每块变成一张“图像单词”,每个“单词”用向量表示。