GPT 系列与 Decoder-only 模型

GPT 系列的核心意义不在某一个模型名，而在于验证了“自回归预训练 + 指令对齐 + 大规模扩展”可以产生通用生成能力。今天主流生成式 LLM 大多沿用了 decoder-only Transformer 的路线。

关键演进

阶段	代表	关键贡献
GPT-1	2018	生成式预训练 + 下游微调
GPT-2	2019	更大规模语言模型展示通用生成能力
GPT-3	2020	few-shot / in-context learning 变得明显可用
InstructGPT / ChatGPT	2022	指令微调和 RLHF 让模型更适合对话和任务执行
多模态与工具使用	2023 以后	模型开始处理图像、音频、代码、工具调用和复杂工作流

具体模型名称会不断变化，但这条技术线的核心问题比较稳定：

Decoder-only 模型使用 causal mask，只能看到当前位置之前的 token，因此天然适合“预测下一个 token”。

tokens:      我   喜   欢   机器   学习
can attend: 我
             我   喜
             我   喜   欢
             我   喜   欢   机器

这种训练目标简单、可扩展，和文本生成任务一致。

现代 GPT 类模型常被用作：

工程上不要把它看成万能大脑，而要把它看成可组合组件。

你不需要记住每代模型的参数量。更重要的是理解：