embed

发表于 2025-09-19 分类于 ai

这个词语太抽象了，学习一下

原来说白了就是投影……

本质上，embedding 就是把离散或高维输入映射到一个连续向量空间。

对文本：

每个单词或 token 是一个整数（token id），直接没法做数学运算

embedding 就把 token id → 一个实数向量 [hidden_dim]

形象比喻：把单词“猫”映射成 [0.1, -0.3, 0.5, …]，这样它可以和其他向量比较相似性、进行运算。

对图像：

图像像素 (B, C, H, W) 太大，也无法直接送 Transformer

所以先通过视觉 encoder（ViT 或 CNN）把图像切成 patch，每个 patch → 一个向量

这些 patch 向量就叫 token embedding（和文本 token 类似）

形象比喻：把图像切成小方块，每块变成一张“图像单词”，每个“单词”用向量表示。