这个专栏叫「琰琰讲AI」。但严格来说,我们不会讲整个 AI——那是一个大到可以写满一面图书馆的学科。我们只讲其中一条线:大模型的技术原理。
为了让后续每篇文章都有一个清晰的位置,这篇我们先画一张地图。
第一层:人工智能(AI)
人工智能这个概念诞生于 1956 年的达特茅斯会议,目标是让机器能「思考」——理解语言、识别图像、下棋、推理。在半个多世纪里,AI 经历过几次热潮和寒冬。今天我们看到的这一波浪潮,走的是其中一条具体的技术路线:机器学习。
第二层:机器学习(ML)
传统的编程方式是「人写规则,机器执行」——你想让机器识别猫,就写一堆规则:有胡须、有尖耳朵、会喵喵叫……这既费劲又脆弱。
机器学习换了个思路:不给机器规则,给它大量猫的图片,让它自己「学」出规律。机器学习的核心三要素是:
- 数据——学习的材料,越多越好
- 模型——一个有大量可调参数的数学函数
- 训练——通过不断调整参数,让模型的输出和真实数据越来越接近
机器学习又分成几个主要分支:监督学习、无监督学习、强化学习。我们后面会反复提到强化学习,因为它是训练 ChatGPT 的关键环节。
第三层:深度学习(DL)
传统机器学习依赖人工设计特征——你得告诉模型该「看」图像的哪些部分。深度学习的突破在于:用多层神经网络自动提取特征,从像素到边缘,从边缘到形状,从形状到物体,一层层抽象上去。
深度学习内部有好几种架构:
- CNN——擅长图像
- RNN / LSTM——擅长序列,但速度慢、长距离遗忘
- Transformer——2017 年横空出世,用注意力机制解决了并行和长程依赖两大问题
第四层:大语言模型(LLM)
Transformer 一出来,人们发现一个规律:模型越大,效果越好。把 Transformer 堆到几十层、参数量到千亿级别,再灌入互联网级别的文本数据训练,就得到了大语言模型。GPT、Claude、LLaMA、DeepSeek……本质上都是巨大的 Transformer Decoder。
这个专栏的位置
- 不讲整个 AI 学科史、专家系统、符号推理
- 不讲计算机视觉、传统机器学习算法(SVM/决策树)
- 只讲从 Transformer 往后的这条线
下一篇进入正题:Transformer 是什么?——从"注意力"说起。
