GPT 系列与 Decoder-only 模型

GPT 系列的核心意义不在某一个模型名,而在于验证了“自回归预训练 + 指令对齐 + 大规模扩展”可以产生通用生成能力。今天主流生成式 LLM 大多沿用了 decoder-only Transformer 的路线。

关键演进

阶段 代表 关键贡献
GPT-1 2018 生成式预训练 + 下游微调
GPT-2 2019 更大规模语言模型展示通用生成能力
GPT-3 2020 few-shot / in-context learning 变得明显可用
InstructGPT / ChatGPT 2022 指令微调和 RLHF 让模型更适合对话和任务执行
多模态与工具使用 2023 以后 模型开始处理图像、音频、代码、工具调用和复杂工作流

具体模型名称会不断变化,但这条技术线的核心问题比较稳定:

Decoder-only 为什么适合生成

Decoder-only 模型使用 causal mask,只能看到当前位置之前的 token,因此天然适合“预测下一个 token”。

tokens:      我   喜   欢   机器   学习
can attend: 我
             我   喜
             我   喜   欢
             我   喜   欢   机器

这种训练目标简单、可扩展,和文本生成任务一致。

GPT 和 BERT 的区别

维度 GPT / Decoder-only BERT / Encoder-only
训练目标 预测下一个 token 预测被 mask 的 token
注意力 单向 causal attention 双向 attention
强项 生成、对话、代码、Agent 分类、抽取、检索表征
典型使用 Chat、RAG 生成、工具调用 文本分类、NER、embedding/rerank

GPT 类模型的工程能力

现代 GPT 类模型常被用作:

工程上不要把它看成万能大脑,而要把它看成可组合组件。

学习重点

你不需要记住每代模型的参数量。更重要的是理解:

  1. decoder-only 的生成方式。
  2. in-context learning 为什么让 prompt 变重要。
  3. 指令对齐为什么改变用户体验。
  4. 工具调用为什么把模型接入外部世界。
  5. eval 为什么比主观试用更重要。

下一步