一文带你了解大模型——智能体(gent)腾讯云开发者社区

作者:lucasgftang

大语言模型很强大,就像人类的大脑一样拥有思考的能力。如果人类只有大脑,没有四肢,没有工具,是没办法与世界互动的。如果我们能给大模型配备上四肢和工具呢?大模型是不是就会打破次元壁,从数字世界走向现实世界,与现实世界实现梦幻联动呢?

大语言模型(后文将用 LLM 指代)可以接受输入,可以分析&推理、可以输出文字\代码\媒体。然而,其无法像人类一样,拥有规划思考能力、运用各种工具与物理世界互动,以及拥有人类的记忆能力。

如果我们给 LLM 配备上:与物理世界互动的工具、记忆能力、规划思考能力。LLM 是否就可以像人类一样,能够自主思考并规划完成任务的过程,能检索记忆,能使用各种工具提高效率,最终完成某个任务。

智能体的英文是 Agent,AI 业界对智能体提出了各种定义。个人理解,智能体是一种通用问题解决器。从软件工程的角度看来,智能体是一种基于大语言模型的,具备规划思考能力、记忆能力、使用工具函数的能力,能自主完成给定任务的计算机程序。

图 1. 由 LLM 驱动的智能体系统

如图 1 所示,在基于 LLM 的智能体中,LLM 的充当着智能体的“大脑”的角色,同时还有 3 个关键部分:

相信看到这里,我们已经对智能体有了基本的认知。如果你还觉得智能体这个概念有点抽象,没关系,现在我们来点好玩的,一起来看看智能体能玩出什么花样?

图2. 从搜索引擎进行搜索并获取Url地址列表

(图左为冯·诺依曼;右为奥本海默;背后是世界上第一台冯·诺依曼架构的“现代”计算机)

图3. 浏览网页并总结网页内容

图4.生成调研报告

图5

调研员智能体构成

回到前文所说的,如果仅有 LLM 这个大脑,是无法完成整个调研流程的。在调研员智能体中,为 LLM 大脑配备了规划、工具、记忆的能力,使得他能独立完成调研任务,下面列出其基本构成,构成分三部分:角色、工具、记忆。在角色中,会注册各种工具,定义思考规划的方式,以及本身具备的短期记忆能力。

图解调研员智能体

图6

img

智能体 如上图所示,在基于 LLM 的智能体中,LLM 的充当着智能体的“大脑”的角色,同时还有 3 个关键部分:规划(Planning)、记忆(Memory)、工具使用(Tool use)

规划,可以为理解观察和思考。如果用人类来类比,当我们接到一个任务,我们的思维模式可能会像下面这样:

这是人类的规划能力,我们希望智能体也拥有这样的思维模式,因此可以通过 LLM 提示工程,为智能体赋予这样的思维模式。在智能体中,最重要的是让 LLM 具备这以下两个能力:

通过 LLM 使得智能体可以把大型任务分解为更小的、更可控的子任务,从而能够有效完成复杂的任务。

思维链已经是一种比较标准的提示技术,能显著提升 LLM 完成复杂任务的效果。当我们对 LLM 这样要求「think step by step」,会发现 LLM 会把问题分解成多个步骤,一步一步思考和解决,能使得输出的结果更加准确。这是一种线性的思维方式。

思维链的 prompt 可以像是如下这样(这里只是一个极简的 prompt,实际会按需进行 prompt 调优):

对 CoT 的进一步扩展,在思维链的每一步,推理出多个分支,拓扑展开成一棵思维树。使用启发式方法评估每个推理分支对问题解决的贡献。选择搜索算法,使用广度优先搜索(BFS)或深度优先搜索(DFS)等算法来探索思维树,并进行前瞻和回溯。

图7

智能体在执行任务过程中,通过 LLM 对完成的子任务进行反思,从错误中吸取教训,并完善未来的步骤,提高任务完成的质量。同时反思任务是否已经完成,并终止任务。

(刚接触到这个单词时,脑子里冒出来的是 「React 是由 Facebook 开源的一个进行创建用户界面的一款 JavaScript 库....」,打住,我们好像走错片场了,此 React 非彼 ReAct •﹏• )

为什么结合推理和行动,就会有效增强 LLM 完成任务的能力?这个问题其实很好回答,我们用上面的「调研员智能体」举例,我提出了问题:「特斯拉 FSD 对比华为 ADS」,下面列出几种不同规划模式的推演:

图8

通过巧妙的 promt 提示设计,使得 LLM 重复地执行推理和行动,最终完成任务。ReAct 的 prompt 模版的大致思路为:

记忆是什么?当我们在思考这个问题,其实人类的大脑已经在使用记忆。记忆是大脑存储、保留和回忆信息的能力。记忆可以分为不同的类型:

仿照人类的记忆机制,智能体实现了两种记忆机制:

LLM 是数字世界中的程序,想要与现实世界互动、获取未知的知识,或是计算某个复杂的公式等,都离不开不工具。所以我们需要为智能体配备各种工具以及赋予它使用工具的能力。

工具是什么?它可以是锤子、螺丝刀,也可以是函数(function)、软件开发工具包(sdk)。工具是人类智慧的具象化,扩展我们的能力,提升工作效率。在智能体中,工具就是函数(Function),工具使用就是调用函数(Call Function)。

在 LLM 中实现函数调用,使用到 LLM 的这个能力:

Function Calling 是一种实现大型语言模型连接外部工具的机制。通过 API 调用 LLM 时,调用方可以描述函数,包括函数的功能描述、请求参数说明、响应参数说明,让 LLM 根据用户的输入,合适地选择调用哪个函数,同时理解用户的自然语言,并转换为调用函数的请求参数(通过 JSON 格式返回)。调用方使用 LLM 返回的函数名称和参数,调用函数并得到响应。最后,如果需求,把函数的响应传给 LLM,让 LLM 组织成自然语言回复用户。

function calling 具体工作流程如下图所示:

图9

不同 LLM 的 API 接口协议会有所不同,下文将以OpenAI 的 API 协议为例,说明如何实现 Function Calling

我们可以按照智能体的需要来实现函数,比如前文的「调研员」智能体,为其实现了这些函数:WebBrowseAndSummarize:浏览网页并总结网页内容;ConductResearch:生成调研报告等。如果是一个智能家居的智能体,可能会需要这些函数:开关灯、开光空调、获取环境信息等。函数的实现在这里不展开赘述,一个函数可以自行编码实现,也可以通过调用外部 API 实现。

假设你的函数已经被实现,我们需要向 LLM 描述这个函数,函数描述的必备要素:

「查询最近天气」的函数描述:

Function Calling 是通过请求 LLM 的 chat API 实现的,在支持 Function Calling 模型的 chat API 参数中,会有一个 functions 参数 (或 tools,不同 LLM 的参数会有所不同) ,通过传入这个参数,大模型则会知道拥有哪些参数可供使用。并且会根据用户的输入,推理出应该调用哪些函数,并将自然语言转成函数的请求参数,返回给请求方。下面以 OpenAI 的 SDK 举例:

LLM 将会返回get_n_day_weather_forecast函数的调用参数:

调用方获得 LLM 返回的函数调用信息(函数名称和调用参数)后,自行调用函数,并得到函数执行的响应。如果有需要,还可以把函数执行的响应追加到 chat API 的对话中传给 LLM,让 LLM 组织成自然语言回复用户。

执行结果:

现在(2024 年 5 月)如果你想要开发一个 AI 智能体,已经比大模型爆发的初期方便太多了,随着 AI 应用需求的持续火热,智能体框架层出不穷。智能体开发框架,会抽象和封装那些被高频使用的模块,如记忆能力、规划能力、RAG 能力、大模型调用等。使用智能体框架,可让帮助你快速搭建智能体。

图10

图11

展望

随着大模型的百花齐放,LLM 会支持更长的上下文、更大的参数规模,其推理能力也会愈发强大。因此,基于大模型搭建的智能体(AI Agent)的能力边界也在不断突破。通过智能体技术,我们可以创建各种各样的 AI 应用,比如:Copilot、DB-GPT 等等,一些 AI 应用已经成为工作生活中不可缺少的存在。相信 AI 应用的将会快速全面地重构我们曾经习以为常的软件形态和交互方式,以及提升人类的生产效率。

THE END
0.网警:关于智能体,这些你需要了解2025年,智能体技术与应用持续深化,呈现出蓬勃发展的趋势。智能体从技术探索迈向产业应用,逐渐成为推动社会生产变革的重要力量。那么,什么是智能体?智能体在未来的应用领域有哪些? 下面,跟着网警一起了解吧~ 1.概念定义 智能体(Agent)是指能够感知环境并利用工具采取行动以实现特定目标的代理。它以大模型为智能底座,具jvzquC41yy}/eww0ep5og€xegpzft8scvk|f1pi1mz532;:323:0v;5473626h:495?5;?70ujznn
1.什么是智能体(agent),看完你就搞懂了!智能体(Agent)是人工智能领域中的一个核心概念。在最基本的层面上,智能体可以被定义为一个实体,它能够在其所处的环境中自主地感知信息,并根据这些信息做出决策,以实现特定的目标或任务。智能体的关键特性包括自主性、感知能力和决策能力。 自主性:智能体能够在没有外部干预的情况下控制其行为。 jvzquC41dnuh0lxfp0tfv87623e96=>7:980c{ykenk0fnyckny03=<49:=85
2.智能体是什么,可以用来做什么?——人民政协网智能体是什么,可以用来做什么? 人民政协网6月18日电“生成式人工智能,我更看好的方向是什么呢?是智能体(Agent)。”百度创始人、董事长兼首席执行官李彦宏日前在“亚布力成长计划-走进百度”活动上表示,智能体是AI时代的网站,将会有几百万、甚至更大量的智能体出现,形成庞大生态。jvzquC41yy}/tvzd0ipo7hp1e532;9/2832:88786;457xjvor
3.了解一点智能体(Agent)百度百科对智能体的定义:智能体,顾名思义,就是具有智能的实体,英文名是Agent。以云为基础,以AI为核心,构建一个立体感知、全域协同、精准判断、持续进化、开放的智能系统。 1 智能体(Agent)是什么? 在计算机科学和人工智能领域,智能体(Agent) 是一个抽象的概念,用于描述能够感知环境、执行行动并以此对环境产生影响jvzquC41dnuh0lxfp0tfv8qxcqrbpA=::1gsvrhng1jfvjnnu1752@=4867
4.什么是多模态、智能体、具身智能、AGI,搞清楚它们的区别智能体可以根据环境状态自主决策并执行动作,以完成复杂的任务。例如,一个智能体是你的个人助理,它不仅能够理解你的指令,还能够独立完成任务,如设定闹钟或根据你的身体情况预约医生。 智能体最早由麻省理工学院AI实验室创始人Marvin Minsky于1986年在《思维的社会》一书中提出。它最近曝火要归功于OpenAI提出的Agent基本jvzquC41dnuh0lxfp0tfv8Jxgtrza8ftvkimg8igvcomu8664;9:3B:
5.什么是智能体智能体定义与核心特征智能体(Agent)是指能够感知环境、自主决策并采取行动以实现特定目标的系统或实体[ref_3][ref_4]。在计算机科学和人工智能领域,它是一个抽象概念,描述了可通过传感器感知环境,并通过执行器对环境产生影响的智能实体[ref_9][ref_7]。jvzquC41yy}/nric{wt/exr1vqvjeYfigu54;:;
6.智能体是什么智能体(Agent)是一个具有自治能力、自适应性的软件、硬件或其他实体,它的目标是认识和模拟人类的智能行为。智能体可以看作是一个计算实体,它能够持续地、自主地发挥作用,并与环境进行交互。它具有驻留性、反应性、社会性、主动性等特征。 在人工智能领域,智能体是一个非常重要的概念,任何独立的能够思考并可以同环境jvzquC41yy}/cr2kpfkff7hqo1koe‚hnqrkekj49:;;/j}rn
7.什么是智能体?深度解读:智能体的底层逻辑与未来发展!2025年,什么最火?当然是AI智能体(AI Agent)。那究竟什么是智能体呢?智能体在未来会向哪个方向发展?它又能给我们带来哪些帮助呢?今天我们就一起来探索一下! 一、什么是智能体? AI有个最基本的使命就是让复杂的世界,变简单!我们回想一下,自2022年底GPT发布到现在,AI大模型有没有完成这个使命?或者说这个使命完成jvzquC41dnuh0lxfp0tfv8|cpipvpjnlkcu0c{ykenk0fnyckny03>5832>43
8.什么是智能体,智能体能干什么?智能体对环境有何影响?智能体(ArtificialAgent)**是指能够感知环境并采取行动以实现特定目标的实体,通常具备自主性、反应性、主动性、社会性和适应性等核心能力**[^1^]。 一、智能体能做什么? 1. **自动化任务执行**:智能体能自动化执行一系列任务,从简单的数据检索到复杂的决策制定和任务执行。 jvzquC41dnuh0lxfp0tfv8milu€s1jwvkerf1mjvckrt1:9838?43=