大语言模型与 Agent 学习路径

本目录面向想从“会用 ChatGPT”走到“能构建 LLM 应用”的学习者。重点不是追最新模型名，而是掌握稳定的工程能力：模型调用、上下文组织、检索、评估、工具调用、Agent 工作流和生产化。

学习顺序

阶段	章节	目标
1	LLM 入门	知道 LLM 能做什么、不能做什么，以及如何安全调用
2	API 与模型选型	会按任务选择模型、接口、成本和延迟策略
3	Prompt 与上下文工程	会设计指令、上下文、few-shot、结构化输出
4	Transformer	理解现代 LLM 的基本架构
5	Embedding 与向量检索	会把文本变成可检索的向量索引
6	RAG 与从零实现 RAG	能构建最小知识库问答系统
7	RAG 评估	能证明检索和生成是否变好
8	微调方法	会判断何时需要 LoRA/QLoRA/全量微调
9	AI Agent	理解 Agent 的边界和风险
10	工具调用、工作流、生产化	能设计可控、可观测、可评估的 Agent 系统
11	AI 编程智能体	会用 Codex、Claude Code 等工具完成代码库任务
12	Agent 记忆与上下文、MCP	会管理项目规则、长期记忆和外部工具接入
13	Harness Engineering、Loop Engineering	会设计模型外部系统和持续验证循环

四个能力层级

Level 1: 会调用模型

你应该能做到：

使用一个托管模型 API 完成文本生成。
设置 system/user/developer 指令。
处理超时、重试、限流和日志。
不把 API key 写进代码仓库。

对应章节：LLM 入门、API 与模型选型。

Level 2: 会控制输出

你应该能做到：

把任务拆成指令、上下文、输出格式和约束。
使用 few-shot 示例稳定格式。
对关键任务使用结构化输出或 JSON schema。
设计失败时的重试和校验。

对应章节：Prompt 与上下文工程。

Level 3: 会接入私有知识

你应该能做到：

对文档做 chunking、embedding 和向量检索。
区分召回问题、排序问题和生成问题。
给答案附引用，并能解释引用是否支持答案。
用评估集比较不同 RAG 配置。

对应章节：Embedding 与向量检索、RAG、从零实现 RAG、RAG 评估。

Level 4: 会做 Agent 工程

你应该能做到：

把工具写成清晰的函数契约。
使用状态机或 workflow 管理多步骤任务。
设置权限、人工确认、guardrails 和审计日志。
用 tracing 和 eval 定位 Agent 失败原因。

对应章节：AI Agent、工具调用、Agent 工作流、Agent 生产化。

Level 5: 会使用和设计编程 Agent

你应该能做到：

用 Codex、Claude Code 等工具探索代码库、改代码、跑测试和 review diff。
把项目规则写入 AGENTS.md、CLAUDE.md、rules 或 skills。
用 MCP 接入外部文档、issue tracker、浏览器、设计工具或内部系统。
设计 harness，把模型、工具、权限、测试、CI 和人类 review 组合成可靠执行环境。
设计 loop，让 Agent 反复执行、验证、修正和停止。

对应章节：AI 编程智能体、Agent 记忆与上下文、MCP、Harness Engineering、Loop Engineering。

什么时候用 Prompt、RAG、微调或 Agent

方案	适合	不适合
Prompt	任务规则清晰、知识在上下文中、输出要求稳定	需要大量私有知识或长期记忆
RAG	知识经常变化、需要引用来源、企业文档问答	需要模型学习新行为或新风格
微调	输出风格、格式、领域语言或分类边界稳定	只是补充事实知识
Agent	需要调用工具、查询外部系统、多步骤执行	简单问答、风险高且无法验证的任务

推荐阅读源

OpenAI API 文档：Responses、工具、Agents、评估与生产化
OpenAI Codex：CLI、IDE、MCP、Skills
Claude Code：Overview、Hooks、MCP
Hugging Face：Transformers、smolagents、Agents Course
LangChain / LangGraph：LangGraph overview
LlamaIndex：LlamaIndex docs

学习检查清单