embed
这个词语太抽象了,学习一下
原来说白了就是投影……
本质上,embedding 就是把离散或高维输入映射到一个连续向量空间。
对 文本:
每个单词或 token 是一个整数(token id),直接没法做数学运算
embedding 就把 token id → 一个实数向量 [hidden_dim]
形象比喻:把单词“猫”映射成 [0.1, -0.3, 0.5, …],这样它可以和其他向量比较相似性、进行运算。
对 图像:
图像像素 (B, C, H, W) 太大,也无法直接送 Transformer
所以先通过 视觉 encoder(ViT 或 CNN)把图像切成 patch,每个 patch → 一个向量
这些 patch 向量就叫 token embedding(和文本 token 类似)
形象比喻:把图像切成小方块,每块变成一张“图像单词”,每个“单词”用向量表示。