大模型是如何学习的？——从预测下一个词到 RLHF

2026年6月29日

前两篇我们画了地图，讲了 Transformer 的结构。但这就像你了解了汽车的发动机结构，却还没搞懂——这车到底怎么开起来的？

一个千亿参数的大模型，它到底是怎么「学会」理解语言的？这篇不讲数学公式，用直觉讲透整个学习过程。

核心任务：预测下一个词

大模型的学习任务，本质上极其简单——预测下一个词。给它一段文本的前面部分，让它猜下一个词是什么。

比如给它「今天天气真」，它会计算每个词作为下一个词的概率：

然后拿它猜的结果和真实文本对比：如果原文是「今天天气真好」，模型预测「好」的概率是 80%，那不错，但还不够好——目标是让正确词的概率无限接近 100%。

这就是学习的基本单元。一遍又一遍，处理几十亿个这样的预测任务，模型慢慢就学会了词语之间的关联。

把输入文本拆成 token，每个 token 被映射成一个向量，然后经过 Transformer 的几十层计算，每一层都在做自注意力 + 前馈网络，最后一层输出一个概率分布——每个词的概率。这个过程叫「前向传播」。简单来说：输入一段文本，模型吐出一个预测。

模型的预测和正确答案之间有差距。这个差距用一个数字来衡量，叫「损失」（Loss）。如果模型预测「好」的概率是 80%，而正确答案就是「好」，损失很小。如果模型预测「好」只有 5%，损失就很大。

常用的损失函数叫交叉熵损失（Cross-Entropy Loss）。公式不重要，你只需要记住：损失越小，模型预测越准。

这是整个学习过程的核心。损失值算出来后，系统从最后一层往前，逐层计算：每个参数对最终的损失贡献了多少「错误」。然后根据这个贡献量，微调每个参数的值——让损失在下一次预测中变小一点。

这个调整由优化器（Optimizer）控制，最常见的是 AdamW。优化器决定两个事情：

前向传播 → 算损失 → 反向传播 → 更新参数，这四个步骤重复无数次，就是训练的完整循环。

今天的 LLM 不是一步训练出来的，通常分三个阶段：

拿互联网上能抓到的所有文本——网页、书籍、论文、代码——让模型做最朴素的「预测下一个词」任务。这个阶段需要数千张 GPU 跑几周到几个月。

预训练产出的是一个「基础模型」（Base Model），它已经学会了语法、事实知识、推理模式，但：

人工写大量问答对，让模型在高质量例子上微调。经过这个阶段，模型学会了回答问题、遵循指令。

ChatGPT 引爆全球的关键技术。做法是：让模型对同一个问题生成多个回答→人工排序→训练奖励模型→用强化学习微调大模型，让它生成人类更喜欢的回答。

这就是为什么 ChatGPT 的回答感觉「更懂你」——它不只是学会了语言，还学会了人类的偏好。

OpenAI 在 2020 年发现：模型参数越多、训练数据越多、计算量越大，效果越好——而且没有看到天花板。但边际收益递减：要把效果提升 1%，可能需要多花一倍的算力。

大模型的学习过程，可以用一句话概括：在数万亿个「预测下一个词」的练习中，逐渐压缩出一个对世界的高维压缩表示。

下一篇回到 Transformer 内部，讲自注意力机制到底是怎么工作的。