先画一张地图:AI、深度学习、大模型,到底是什么关系?

这个专栏叫「琰琰讲AI」。但严格来说,我们不会讲整个 AI——那是一个大到可以写满一面图书馆的学科。我们只讲其中一条线:大模型的技术原理。

为了让后续每篇文章都有一个清晰的位置,这篇我们先画一张地图。

第一层:人工智能(AI)

人工智能这个概念诞生于 1956 年的达特茅斯会议,目标是让机器能「思考」——理解语言、识别图像、下棋、推理。在半个多世纪里,AI 经历过几次热潮和寒冬。今天我们看到的这一波浪潮,走的是其中一条具体的技术路线:机器学习。

第二层:机器学习(ML)

传统的编程方式是「人写规则,机器执行」——你想让机器识别猫,就写一堆规则:有胡须、有尖耳朵、会喵喵叫……这既费劲又脆弱。

机器学习换了个思路:不给机器规则,给它大量猫的图片,让它自己「学」出规律。机器学习的核心三要素是:

  • 数据——学习的材料,越多越好
  • 模型——一个有大量可调参数的数学函数
  • 训练——通过不断调整参数,让模型的输出和真实数据越来越接近

机器学习又分成几个主要分支:监督学习、无监督学习、强化学习。我们后面会反复提到强化学习,因为它是训练 ChatGPT 的关键环节。

第三层:深度学习(DL)

传统机器学习依赖人工设计特征——你得告诉模型该「看」图像的哪些部分。深度学习的突破在于:用多层神经网络自动提取特征,从像素到边缘,从边缘到形状,从形状到物体,一层层抽象上去。

深度学习内部有好几种架构:

  • CNN——擅长图像
  • RNN / LSTM——擅长序列,但速度慢、长距离遗忘
  • Transformer——2017 年横空出世,用注意力机制解决了并行和长程依赖两大问题

第四层:大语言模型(LLM)

Transformer 一出来,人们发现一个规律:模型越大,效果越好。把 Transformer 堆到几十层、参数量到千亿级别,再灌入互联网级别的文本数据训练,就得到了大语言模型。GPT、Claude、LLaMA、DeepSeek……本质上都是巨大的 Transformer Decoder。

这个专栏的位置

  • 不讲整个 AI 学科史、专家系统、符号推理
  • 不讲计算机视觉、传统机器学习算法(SVM/决策树)
  • 只讲从 Transformer 往后的这条线

下一篇进入正题:Transformer 是什么?——从"注意力"说起