本文通俗讲解了AI智能体的概念与核心特征。从能力层面看,智能体区别于传统对话式AI,能自主规划任务、调用工具完成目标;从结构层面分析,智能体通常包含大脑(规划模型)、感知记忆和行动工具三大组件。文章对比了豆包、扣子等平台与Manus等产品的差异,指出当前多数"智能体"尚未达到理想自主水平,强调应聚焦实际应用场景构建专属AI助手。最后提供多个实用案例,并附赠相关行业报告获取方式。
她说她看了很多资料,但是还是有些模糊。
还有我接触到的一些大学老师,甚至有一些搞 AI 应用的人也讲不太清楚。
台湾大学李宏毅教授的《生成式 AI 时代的机器学习(2025)》第二讲中就提到:
AI Agent 没有标准的定义。
以前我们使用大模型的主要方式就是打开对话框,提出问题,它给出回答。
AI Agent (AI 智能体)则是我们提出目标,AI 自己去思考规划、调用各种工具,最终帮我们达成这个目标。
比如说你让 AI 智能体去帮你在购物网站上挑选某个商品,那么 AI 智能体会打开浏览器,执行各种搜索,然后挑选出符合你要求的商品。
从能力层面来讲,他并不关心智能体内部实现,更关心“AI 完成任务的占比”。
如果是从能力层面来讲的话:
ChatGPT 就相当于我们直接在对话框里问问题,然后它给一些建议,我们需要自己再回去处理工作。
那么像 Cursor、Claude Code 这种就是人类和 AI 一起协作,工作量基本相当。
而 Agent 的话,其实需要 AI 完成更多工作,人类主要负责设定目标、提供资源、监督结果。Agent 需要自主完成任务拆解、工具选择、进度控制,实现后自主结束工作。
在复旦大学 NLP团队的一篇智能体综述《The Rise and Potential of Large Language Model
Based Agents: A Survey》中,主要提到大语言模型驱动的智能体的概念。
其中提到基于大语言模型的智能体,主要包括三个组件:一个是大脑,一个是感知,一个是行动。
它可以感知环境,获取输入可能是文本、图片、视频、音频等。它有“大脑”可以进行规划、存储,也能执行各种行动,包括输出文本、调用工具、操作机械臂等。
在 Google 的智能体白皮书中提到智能体,主要包括编排、模型和工具。
在编排中主要包括配置指令、目标,以及 memory(记忆),以及推理和规划。
模型的话通常指现在的大语言模型。
工具的话可能是浏览器,可能是搜索引擎,可能是计算器等。
比如说用户说想让智能体帮订一个机票:
💪 行动(工具): 它调用“搜索引擎”工具查航班,调用“计算器”工具比价。
👂 感知(记忆): 它“感知”到搜索结果,并“记忆”住最便宜的三个选项,然后回头向你(用户)报告。”
「规划」主要负责任务拆解、反思和优化;「记忆」包括短期记忆和长期记忆;「工具」负责调用各种工具获取信息或执行操作。
高瓴人工智能学院发布的基于大模型模型的自主智能体综述中,认为智能体主要包括角色设定、记忆模块、规划模块和行动模块。
首先,决策设定会给智能体一个身份、性格、社会关系等等。
记忆模块主要负责存储管理信息,模仿人的短期和长期记忆。
规划模块主要解决复杂任务的拆解和策略的生成。
行动模块将推理和规划落实到具体的操作上。
在结构层面,虽然各家(如复旦、Google等)的叫法不同,但核心组件万变不离其宗,基本都包括三个部分:
你认为豆包这里创建的这个是不是智能体?
你认为字节的扣子创建的这个,是不是智能体?
你认为 Cherry Studio 创建的这个,是不是智能体?
你认为 Manus 是不是智能体?
像 豆包 、Cherry Studio、 扣子(Coze),它们更像是“智能体的创建平台”。从结构上看,它们提供了完整的“大脑”(模型)、“记忆”和“工具(如插件)”组件,让普通人也能搭建智能体。
像 Manus,它更接近“能力层面”定义的、具有高度自主性的 Agent,人类定目标,它自己去执行。
其实 AI 智能体和聊天机器人有区别,它更多强调的是 AI 的自主性。
人类提供任务,AI 自主拆解调用工具去执行。
从结构层面来讲,现在其实有一大堆智能体。
但从能力层面来讲,其实很多所谓的智能体还没有真正达到比较理想的状态。
我觉得重要的不是纠结这个概念,重要的是能够根据自己的场景,根据自己的一些缺点,创建各种智能体,打造属于自己的智能体军团,让 AI 真正的为自己的工作生活学习带来实实在在的帮助。
更多智能体军团案例:
关注微信公众号「悟鸣AI」,公众号私信发送:「agent 」关键字,就可以获取文章提到的所有智能体的相关的资料,以及高质量的 AI Agent 行业报告。
更多推荐
计算机毕业设计|大数据深度学习|—基于知识图谱的《哈利·波特》人物关系系统设计与实现
深度智能体-智能体加强版
本文介绍了深度智能体的增强功能,主要包括:1)文件系统访问能力,包含6个类Linux命令工具;2)智能管理工具调用结果,避免上下文窗口饱和;3)可插拔的持久化后端,支持多种存储策略;4)任务委托功能,支持创建子智能体实现并行处理;5)对话历史汇总机制,自动压缩令牌数量;6)工具调用断链恢复功能,确保消息序列完整性;7)结构化待办事项跟踪系统;8)人机回环功能。这些增强使深度智能体具备更强大的文件处
[论文阅读] AI+ | 不用懂多领域知识也能搞混沌工程?ChaosEater用LLM实现CE全流程自动化