1. transformer

0. 最小心智模型: Attention = 两次矩阵乘

打分(谁看谁)
$S = QK^T$
加权求和(读出内容)
$O = \text{softmax}(S)\,V$

1. Anchor 1: Q / K / V 的形状(只记这一组)

对 单个 batch, 单个 head:

$Q \in \mathbb{R}^{N \times d}$
$K \in \mathbb{R}^{N \times d}$
$V \in \mathbb{R}^{N \times d}$

含义:

$N$ : 序列长度(token 数)
$d$ : 每个 head 的维度(head_dim)

口诀: Q/K/V 都是"每个 token 一行, 每行一个 d 维向量";

2. Anchor 2: 为什么注意力矩阵是 $N \times N$

$K^T \in \mathbb{R}^{d \times N}$
$S = QK^T \in \mathbb{R}^{N \times N}$

直觉:

$N$ 个 query $\times$ $N$ 个 key $\rightarrow$ 一张 $N \times N$ 的"匹配分数表";

口诀: N 个 query 看 N 个 key $\rightarrow$ 一张 N $\times$ N 表;

3. Anchor 3: 为什么输出还是 $N \times d$

设 $P = \text{softmax}(S)$ , 则:

$P \in \mathbb{R}^{N \times N}$ (按行 softmax)
$O = PV \in \mathbb{R}^{N \times d}$

直觉:

每个 query 输出一个 d 维向量(不改变向量维度, 只是混合 token);

口诀: 注意力"混合 token", 不改变每个 token 的向量维度;

4. 防忘公式: 写成下标版, 永远不会错

4.1 打分(标量)

$S_{ij} = \langle Q_i,\ K_j \rangle$

$Q_i$ : 第 i 个 token 的 query(长度 d)
$K_j$ : 第 j 个 token 的 key(长度 d)
点积是标量 $\Rightarrow$ $S_{ij}$ 是标量
i/j 各跑 $N$ $\Rightarrow$ $S$ 是 $N \times N$

4.2 输出(向量)

$O_i = \sum_{j=1}^{N} \text{softmax}(S_{i:})_j \cdot V_j$

$V_j$ 是 d 维向量
加权和仍是 d 维向量 $\Rightarrow$ $O_i$ 是 d 维
所有 i 组成 $O \in \mathbb{R}^{N \times d}$

5. Multi-Head Attention(最不容易乱的记法)

一句话: 多头 = 多套 Q/K/V 并行算, 最后把 head 的 d 拼回去;

常见形状(单 batch):

输入 hidden: $X \in \mathbb{R}^{N \times D_{\text{model}}}$
三个投影:
- $Q = XW_Q$
- $K = XW_K$
- $V = XW_V$

其中:

$W_Q, W_K, W_V \in \mathbb{R}^{D_{\text{model}} \times (H\cdot d)}$

所以:

$Q, K, V \in \mathbb{R}^{N \times (H\cdot d)}$

reshape 后(两种写法等价, 只是布局不同):

$Q \in \mathbb{R}^{H \times N \times d}$ 或 $Q \in \mathbb{R}^{N \times H \times d}$
同理 $K, V$

每个 head $h$ 独立:

$S_h \in \mathbb{R}^{N \times N}$
$O_h \in \mathbb{R}^{N \times d}$

拼接回去:

$O \in \mathbb{R}^{N \times (H\cdot d)}$

最后输出投影回模型维度(常见):

$O_{\text{final}} = OW_O$ , $W_O \in \mathbb{R}^{(H\cdot d) \times D_{\text{model}}}$

关键等式:
$D_{\text{model}} = H \cdot d$

6. 30 秒自检法(不靠记忆, 靠推理)

当你写出 attention 公式后, 检查两条就够:

$QK^T$ 的"内维"必须一致(都是 d)
输出形状必须是 $N \times d$ (或多头拼接后的 $N \times D_{\text{model}}$ )

7. 类比记忆: Attention = 数据库检索

$Q$ : 查询(query)
$K$ : 索引(key)
$V$ : 内容(value)

流程:

$QK^T$ : 算"查询对每个 key 的匹配分数"
softmax: 把分数变成概率/权重
乘 $V$ : 按权重把内容加权读出来

8. 一行速记卡片(随手贴)

Q/K/V: $N \times d$
Scores: $S = QK^T \Rightarrow N \times N$
Weights: $P=\text{softmax}(S) \Rightarrow N \times N$ (按行)
Output: $O = PV \Rightarrow N \times d$
Multi-head: $D_{\text{model}} = H\cdot d$ , 每个 head 都是同一套