← 返回目录 ARTICLE 02 · ARCHITECTURE

Transformer 架构
30 分钟入门

2017 年 Vaswani 等人发表的《Attention Is All You Need》提出了 Transformer，从此奠定了现代大模型的骨架。本文用最少的数学讲清楚它为什么有效。

核心问题：如何让序列里的元素互相"看到"对方

在 Transformer 之前，序列建模主要靠 RNN/LSTM：信息沿时间步流动，越远越难传递；CNN 则用滑动窗口聚合局部信息。两者都难以高效捕捉长程依赖。

Transformer 给出的回答非常直白：让序列里每一个 token 直接和其他所有 token 计算一次相关度，然后按相关度加权汇聚信息。这就是注意力机制。

输入序列被映射成三组向量：Query、Key、Value。对每个位置 i：

Attention(Q, K, V) = softmax( Q · Kᵀ / √d_k ) · V

直觉：Query 在问"谁与我相关？"，Key 在回答"我代表什么？"，Value 才是真正被汇聚的信息。

只算一组 Q/K/V 的话，模型只能学到一种"相关性视角"。多头注意力让模型并行学习若干组投影，比如一组关注语法依赖，另一组关注共指，再一组关注词义相似度，最后把所有头的输出拼接并线性变换。

注意力本身是置换不变的——把句子打乱不影响 softmax 的结果。但语言显然有顺序，所以必须把"我是第几个 token"以某种形式编码进去。常见做法：

一层 Transformer Block 由两块组成：

x = x + MultiHeadAttention( LayerNorm(x) )
x = x + FeedForward( LayerNorm(x) )

两个关键点：

有了 Transformer 这块骨架与一个训练好的 LLM，下一步就是让它用上外部资料，看看检索增强生成 RAG 是怎么做到的。