大语言模型 LLM 概览
大语言模型(Large Language Model,LLM)是一类参数规模通常在数十亿到上万亿之间、以"预测下一个词"为基本训练目标的神经网络。它的强大并非来自某个新颖的算法,而是来自规模:足够多的数据、足够多的参数、足够多的算力,三者叠加之后涌现出我们今天使用的那些能力。
它本质上做的是什么
抛开所有包装,一个 LLM 在推理时只做一件事:给定一段上文,输出下一个 token 的概率分布,然后采样、追加、再循环。所谓"对话"、"写代码"、"翻译"、"总结",都是这条循环在不同提示下的表现。
上文 ──► [模型] ──► 下一个 token 的概率分布 ──► 采样 ──► 追加 ──► 循环
理解这一点之后,许多看似神秘的现象都能解释:为什么模型会"幻觉"——因为它在用概率拼接看起来合理的延续;为什么提示词如此重要——因为整段上文就是它预测的全部依据。
三段式训练:预训练、微调、对齐
1. 预训练(Pre-training)
在海量公开文本上用自回归目标做无监督训练,目标函数简单而粗暴:最大化每个位置上真实下一个 token 的对数似然。这一阶段决定了模型"知道什么"。
2. 监督微调(SFT,Supervised Fine-Tuning)
用人工编写的高质量"指令—回答"对继续训练,让模型学会"听懂任务、按格式回答"。这一阶段决定了模型"愿意按你想要的方式回答"。
3. 偏好对齐(RLHF / DPO 等)
收集人类偏好(同一问题的多个回答中,哪一个更好),然后用强化学习或直接偏好优化让模型向人类偏好靠拢。这一阶段决定了模型"答得是否得体、是否安全、是否有帮助"。
一个常见误解:通用能力来自微调阶段。其实绝大部分能力在预训练就已经形成,微调与对齐更像是在调教一只已经聪明的动物,让它愿意配合你。
能力与边界
- 擅长:语言理解与生成、代码补全、归纳总结、翻译改写、风格迁移、简单推理。
- 力有未逮:精确算术、严格的多步逻辑、需要外部最新事实的问答、长程一致性。
- 明确不会:自主联网(除非工程上接入)、自我改写权重、保证不犯错。
工程师视角的几条要点
- 上下文长度不是越长越好。代价是显存、延迟与"中段遗忘"。
- 温度 / top_p 控制采样的随机性,写代码或抽取信息时建议偏低,创意写作时偏高。
- 系统提示不只是一句开场白,它定义模型在对话中的角色和约束,权重通常高于普通用户消息。
- 幻觉无法被消灭,只能被约束:用 RAG 提供事实,用工具调用获得确定性结果,用结构化输出做后处理校验。
下一步
理解了 LLM 是什么之后,自然要追问它"为什么能这样工作"。下一篇会进入 Transformer 架构,看看支撑这一切的那块骨架。