大模型是如何学习的?——从预测下一个词到 RLHF

前两篇我们画了地图,讲了 Transformer 的结构。但这就像你了解了汽车的发动机结构,却还没搞懂——这车到底怎么开起来的?

一个千亿参数的大模型,它到底是怎么「学会」理解语言的?这篇不讲数学公式,用直觉讲透整个学习过程。

核心任务:预测下一个词

大模型的学习任务,本质上极其简单——预测下一个词。给它一段文本的前面部分,让它猜下一个词是什么。

比如给它「今天天气真」,它会计算每个词作为下一个词的概率:

  • 「好」—— 80%
  • 「热」—— 12%
  • 「不」—— 5%
  • 「书」—— 0.001%

然后拿它猜的结果和真实文本对比:如果原文是「今天天气真好」,模型预测「好」的概率是 80%,那不错,但还不够好——目标是让正确词的概率无限接近 100%。

这就是学习的基本单元。一遍又一遍,处理几十亿个这样的预测任务,模型慢慢就学会了词语之间的关联。

学习的三个环节

1. 前向传播(Forward Pass)

把输入文本拆成 token,每个 token 被映射成一个向量,然后经过 Transformer 的几十层计算,每一层都在做自注意力 + 前馈网络,最后一层输出一个概率分布——每个词的概率。这个过程叫「前向传播」。简单来说:输入一段文本,模型吐出一个预测

2. 计算损失(Loss)

模型的预测和正确答案之间有差距。这个差距用一个数字来衡量,叫「损失」(Loss)。如果模型预测「好」的概率是 80%,而正确答案就是「好」,损失很小。如果模型预测「好」只有 5%,损失就很大。

常用的损失函数叫交叉熵损失(Cross-Entropy Loss)。公式不重要,你只需要记住:损失越小,模型预测越准。

3. 反向传播 + 参数更新

这是整个学习过程的核心。损失值算出来后,系统从最后一层往前,逐层计算:每个参数对最终的损失贡献了多少「错误」。然后根据这个贡献量,微调每个参数的值——让损失在下一次预测中变小一点。

这个调整由优化器(Optimizer)控制,最常见的是 AdamW。优化器决定两个事情:

  • 方向——参数该往大调还是往小调
  • 步幅(学习率)——每次调多大

前向传播 → 算损失 → 反向传播 → 更新参数,这四个步骤重复无数次,就是训练的完整循环。

三阶段训练

今天的 LLM 不是一步训练出来的,通常分三个阶段:

第一阶段:预训练(Pre-training)

拿互联网上能抓到的所有文本——网页、书籍、论文、代码——让模型做最朴素的「预测下一个词」任务。这个阶段需要数千张 GPU 跑几周到几个月。

预训练产出的是一个「基础模型」(Base Model),它已经学会了语法、事实知识、推理模式,但:

  • 不会对话——它只会续写文本,不会一问一答
  • 没有对齐——你让它做坏事它不一定拒绝
  • 说话风格不可控

第二阶段:指令微调(SFT)

人工写大量问答对,让模型在高质量例子上微调。经过这个阶段,模型学会了回答问题、遵循指令。

第三阶段:RLHF

ChatGPT 引爆全球的关键技术。做法是:让模型对同一个问题生成多个回答→人工排序→训练奖励模型→用强化学习微调大模型,让它生成人类更喜欢的回答。

这就是为什么 ChatGPT 的回答感觉「更懂你」——它不只是学会了语言,还学会了人类的偏好。

规模定律

OpenAI 在 2020 年发现:模型参数越多、训练数据越多、计算量越大,效果越好——而且没有看到天花板。但边际收益递减:要把效果提升 1%,可能需要多花一倍的算力。

总结

大模型的学习过程,可以用一句话概括:在数万亿个「预测下一个词」的练习中,逐渐压缩出一个对世界的高维压缩表示

下一篇回到 Transformer 内部,讲自注意力机制到底是怎么工作的