← 返回目录 ARTICLE 01 · LLM

大语言模型 LLM 概览

大语言模型（Large Language Model，LLM）是一类参数规模通常在数十亿到上万亿之间、以"预测下一个词"为基本训练目标的神经网络。它的强大并非来自某个新颖的算法，而是来自规模：足够多的数据、足够多的参数、足够多的算力，三者叠加之后涌现出我们今天使用的那些能力。

它本质上做的是什么

抛开所有包装，一个 LLM 在推理时只做一件事：给定一段上文，输出下一个 token 的概率分布，然后采样、追加、再循环。所谓"对话"、"写代码"、"翻译"、"总结"，都是这条循环在不同提示下的表现。

上文 ──► [模型] ──► 下一个 token 的概率分布 ──► 采样 ──► 追加 ──► 循环

理解这一点之后，许多看似神秘的现象都能解释：为什么模型会"幻觉"——因为它在用概率拼接看起来合理的延续；为什么提示词如此重要——因为整段上文就是它预测的全部依据。

在海量公开文本上用自回归目标做无监督训练，目标函数简单而粗暴：最大化每个位置上真实下一个 token 的对数似然。这一阶段决定了模型"知道什么"。

用人工编写的高质量"指令—回答"对继续训练，让模型学会"听懂任务、按格式回答"。这一阶段决定了模型"愿意按你想要的方式回答"。

收集人类偏好（同一问题的多个回答中，哪一个更好），然后用强化学习或直接偏好优化让模型向人类偏好靠拢。这一阶段决定了模型"答得是否得体、是否安全、是否有帮助"。

一个常见误解：通用能力来自微调阶段。其实绝大部分能力在预训练就已经形成，微调与对齐更像是在调教一只已经聪明的动物，让它愿意配合你。

理解了 LLM 是什么之后，自然要追问它"为什么能这样工作"。下一篇会进入 Transformer 架构，看看支撑这一切的那块骨架。