AI Agent

AI Agent 是能基于目标、上下文和工具执行多步骤任务的 LLM 系统。它不是“更聪明的聊天机器人”，而是一个带工具、状态、权限和评估的工作流。

一个实用定义

Agent = LLM + tools + state + workflow + harness + loop + guardrails + evaluation

其中：

适合：

不适合：

这些场景优先用 Prompt、RAG 或普通程序解决。

工具要有清晰 schema、权限和错误格式。见 Agent 工具调用。

状态记录：

工作流决定 Agent 如何推进。见 Agent 工作流模式。

Agent 要知道项目规则、任务状态和长期偏好。见 Agent 记忆与上下文。

Harness 是模型外部的工程系统，包括工具、文件系统、shell、权限、CI、日志和人类 review。见 Harness Engineering。

Loop 决定 Agent 如何基于反馈反复执行、验证和停止。见 Loop Engineering。

Agent 评估要覆盖：

用户：查一下这篇文档里 RAG 评估怎么做
  -> 模型决定调用 search_docs
  -> 程序校验 query 和 top_k
  -> 工具返回相关片段
  -> 模型基于片段回答并给引用

注意：工具执行必须由程序控制，不能让模型绕过权限和参数校验。

如果你还没有做过 RAG，建议先学 RAG，因为很多 Agent 都会把检索作为基础工具。

OpenAI Agents SDK: https://developers.openai.com/api/docs/guides/agents
LangGraph Overview: https://docs.langchain.com/oss/python/langgraph/overview
Hugging Face Agents Course: https://huggingface.co/learn/agents-course/en/unit0/introduction
smolagents: https://huggingface.co/docs/smolagents/en/index