目前 LLM 技术发展非常迅速,虽然 LLM 看似已经具备了丰富的知识与足够的智慧,但是在一些场景下我们可能需要更加精确的答案,而不是得到一些幻觉类答案,或者答案不够实时,或者人类诉求太过复杂以至于 LLM 无法理解,等等,这些问题也是目前阻止很多 AI 应用落地的主要原因。基于 AI Agent(AI 智能体)自身所具备的能力,同时借助于 LLM 所释放的潜力,或许在不久的将来能够不断优化改进,达到满足人类更方便、更智能地使用 AI 完成各种任务的需求,实现普惠 AI 的目标。下面,首先了解一下 LLM 和 AI Agent 有什么不同:人类与 LLM 之间的交互,是基于给定的 Prompt 提示词来实现的,而对于 Prompt 的设计不同 LLM 给出的对话回答质量也是不同的,所以需要人类通过一些特定的方法或经过多次尝试,才有可能逐步提高对话的精确度和满意度。可见,目前基于 LLM 的应用作为工具,能够在一定程度上提高人类日常生活、工作等的效率,同时反过来也对人类使用 LLM 提出了一定的要求,而且这一部分工作更多的是需要人类主动请求,而 LLM 被动执行动作来完成一次一次地交互。AI Agent 提供了更广泛的功能,特别是在与环境的交互、主动决策和执行各种任务方面。在基于 LLM 的场景下,我们给 AI Agent 设定一个目标,它就能够针对这个目标独立思考并执行动作,对给定任务进行详细拆解,得到最终计划的所有步骤,从而根据外部环境的反馈以及自己的自主思考,创建更加合适的 Prompt 输入给 LLM 以实现既定的问答目标。简单来说,不需人类的参与, AI Agent 就能够完全独立地完成预先设定的目标。
什么是 AI Agent
AI Agent 是一种能够感知环境、制定决策、执行动作的人工智能体,它能够通过独立思考、进行规划并调用合适的工具去逐步实现给定的目标,整个过程完全不需要人类参与。大模型(LLM)的出现、快速发展与完善,AI Agent 更有潜力借助 LLM 来实现对通用问题的解决与自动化处理,所以我们可以认为目前 AI Agent 基本是基于 LLM(LLM-Based) 的 AI 智能体。AI Agent 的演化经过了如下几个阶段:
在 AI 研究的早期阶段,最主要的方法是符号 AI,通过采用逻辑规则和符号表示来封装知识并进行推理。在 Symbolic Agents 这个阶段主要专注解决的问题是:转换问题、表示/推理问题。
在 RL-Based Agents 阶段,主要关注点是如何让 Agent 通过与环境(Environment)的交互进行学习,使其在特定任务中获得最大的累积奖励,从而使 Agent 能够在未知环境中自主学习并执行 Action,学习过程中无需人工干预。
传统的 RL 学习需要 Agent 耗时处理大量样本和训练,通过引入迁移学习,实现知识共享和迁移,提高了 Agent 的性能表现和泛化能力。在此基础上又引入了元学习,使 Agent 能基于少量样本迅速推断出新任务的最优策略。
LLM-Based Agent 以 LLM 为核心大脑组件(中央控制器),通过多模态感知(Multimodal Perception)和工具利用(Tool Utilization)等策略来扩展其 Perception 和 Action 空间。通过使用 CoT(Chain-of-Thought)和问题分解等技术,使 LLM-Based Agent 具有推理和规划能力。同时,LLM-Based Agent 也能够与环境进行交互,通过不断地从反馈中学习,从而优化策略并做出决策,执行下一个 Action。另外,基于 LLM-Based Agent 具有更广泛的应用场景。
LLM-Based Agent 基本框架
Brain 组件主要由核心的 LLM 组成,它包含的能力有:存储知识和记忆、信息处理与决策、推理与规划。
Perception 组件主要将 Agent 的感知空间,从语言文字领域扩展到多模态领域(包括语言、视觉、听觉等等)。
在 Action 组件中,Agent 从 Brain 模块接收 Action 序列,执行与环境交互的任务。通过上图和对三个组件的描述,我们可以看到存在这样一个自动化的环路:Environment → Perception → Brain → Action → Environment,Agent 通过自动地持续与环境交互(感知环境输入/执行 Action 输出到环境)不断学习,并不断优化策略执行新的 Action。