先画一张地图：AI、深度学习、大模型，到底是什么关系？

2026年6月29日

这个专栏叫「琰琰讲AI」。但严格来说，我们不会讲整个 AI——那是一个大到可以写满一面图书馆的学科。我们只讲其中一条线：大模型的技术原理。

为了让后续每篇文章都有一个清晰的位置，这篇我们先画一张地图。

第一层：人工智能（AI）

人工智能这个概念诞生于 1956 年的达特茅斯会议，目标是让机器能「思考」——理解语言、识别图像、下棋、推理。在半个多世纪里，AI 经历过几次热潮和寒冬。今天我们看到的这一波浪潮，走的是其中一条具体的技术路线：机器学习。

传统的编程方式是「人写规则，机器执行」——你想让机器识别猫，就写一堆规则：有胡须、有尖耳朵、会喵喵叫……这既费劲又脆弱。

机器学习换了个思路：不给机器规则，给它大量猫的图片，让它自己「学」出规律。机器学习的核心三要素是：

机器学习又分成几个主要分支：监督学习、无监督学习、强化学习。我们后面会反复提到强化学习，因为它是训练 ChatGPT 的关键环节。

传统机器学习依赖人工设计特征——你得告诉模型该「看」图像的哪些部分。深度学习的突破在于：用多层神经网络自动提取特征，从像素到边缘，从边缘到形状，从形状到物体，一层层抽象上去。

深度学习内部有好几种架构：

Transformer 一出来，人们发现一个规律：模型越大，效果越好。把 Transformer 堆到几十层、参数量到千亿级别，再灌入互联网级别的文本数据训练，就得到了大语言模型。GPT、Claude、LLaMA、DeepSeek……本质上都是巨大的 Transformer Decoder。

下一篇进入正题：Transformer 是什么？——从"注意力"说起。