AI Agents的核心组成部分有哪些？AI Agents 介绍

随着大型语言模型（LLM）的出现，人工智能取得了巨大的飞跃。这些强大的系统彻底革新了自然语言处理，但只有当它们与自主性——即自主推理、规划和行动的能力——相结合时，才能真正释放其潜力。LLM Agent正是在此发挥作用，代表着我们与人工智能交互和利用方式的范式转变。

本博客旨在全面概述AI Agent，深入探讨其特征、组成部分和类型，同时探索其发展演变、挑战和未来发展方向。

我们首先来了解一下从 LLM 到 AI Agent的演变过程。

一、从 LLM 到 AI Agent

LLM 的应用演变是现代应用中发展最快的，如下图所示：

1.1 传统聊天机器人到基于 LLM 的聊天机器人

聊天机器人并非新生事物；在生成式人工智能（gen AI）概念出现之前，你可能就已经在网站上与聊天机器人互动过了。生成式人工智能出现之前的传统聊天机器人与如今的 AI 对话代理有着本质区别。以下是它们通常的运作方式：

基于启发式的回应：

传统聊天机器人基于规则逻辑（“如果-那么”语句）运行；
仅限于预定义规则，无法处理复杂或含糊不清的查询；

预设回复：

响应是静态的，并且是预先设定的；
通过检测到特定关键词或短语触发；
缺乏灵活性和对话深度；

人工交接：

始终包含“联系人工客服”按钮，用于解答未解决的问题；
人为干预对于处理复杂问题仍然至关重要；

1.2 介绍基于 LLM 的聊天机器人

ChatGPT 发布： 2022 年 11 月 30 日，OpenAI 推出了基于 GPT-3.5 的 ChatGPT，这是首个主流的语言学习管理（LLM）应用。ChatGPT 保留了用户熟悉的聊天机器人界面，但其背后是经过庞大互联网语料库训练的先进语言学习管理技术。

Transformer 架构： GPT（生成式预训练 Transformer）基于 Google 于 2017 年推出的 Transformer 架构。它使用自注意力机制来分析输入序列，从而更深入地理解上下文。

LLM：与传统聊天机器人不同，LLM 可以生成类人、上下文相关且新颖的文本。应用场景包括代码生成、内容创作、增强客户服务等等。

局限性：

个性化：难以在长时间的对话中保持一致的个性化互动；
幻觉：产生与事实不符但逻辑连贯的回应，根据概率而不是经过验证的知识生成输出；

解决局限性：

使用诸如检索增强生成（RAG）之类的技术，以使输出结果与可靠的外部数据挂钩。
对大模型进行微调，使其可以理解垂直领域的知识，从而提高 LLM 系统的鲁棒性。

1.3 从基于 LLM 的聊天机器人到 RAG 聊天机器人和 AI Agent

RAG 聊天机器人：检索增强生成 (RAG) 将外部数据检索与 LLM 功能相结合，以生成准确且符合上下文的回复。

知识来源：

非参数知识：从互联网或专有数据库等外部来源检索的实时数据；
参数化知识： LLM 在训练过程中嵌入的知识。

优点：减少幻觉，提供最新信息，并确保可验证的回答。

提示工程：诸如情境学习（单次、少次）、思维链 (CoT) 和 ReAct 等技术通过指导 LLM 的推理和输出生成来提高响应质量。

AI Agent： AI Agent是从 LLM 演变而来，并增强了工具、多步骤规划和推理能力。

工具使用： LLM 可以通过分析任务并通过结构化模式（例如 JSON）分配参数来调用以编程方式定义的函数或 API。

环境：人工智能代理在迭代执行环境中运行，能够根据反馈进行动态决策和持续适应。

智能体系统：这些是具有自主智能体的计算架构，能够集成多个系统组件、做出决策并实现目标。

Agentic RAG：

将 LLM 的推理、工具使用和规划能力与语义信息检索相结合；
能够构建动态系统，该系统可以分解任务、执行复杂查询并利用工具解决问题。

从 LLM 驱动的聊天机器人过渡到 RAG 聊天机器人和 AI Agent，代表着向更智能、更具适应性和工具集成性的系统转变，这些系统能够实时解决复杂的问题。

二、什么是AI Agent？

AI agent是一个能够通过传感器感知环境、处理信息并利用执行器对环境采取行动以实现特定目标的系统。你可以把它想象成一个能够观察、思考和行动的数字实体——就像人类与周围环境互动一样，但它是以一种程序化和有目的的方式进行的。

AI agent的概念建立在理性行为的基本思想之上：智能体应该采取行动，以最大限度地提高其实现既定目标的成功概率。这种理性使人工智能智能体区别于简单的响应式程序。

AI Agents具有以下几个关键特征：

自主性：无需人工干预即可运行，独立做出决策；
被动和主动行为：对环境变化做出反应，并采取积极措施来实现目标；
适应能力：通过处理新的信息和经验来学习和发展；
目标导向：致力于实现预定目标或优化结果；
交互性：与其他智能体或人类进行沟通和协作；
持续运行：不断运行，监控并响应动态环境。

三、AI Agents的核心组成部分

AI Agents的核心由以下几个部分组成：

Perception 感知
Reasoning 推理
Action 行动
Knowledge Base 知识库
Learning 学习
Communication Interface 通信接口

3.1 感知（传感器）

这些设备使智能体能够感知其环境。这些设备可以是物理传感器（摄像头、麦克风）或数字输入（数据流、用户交互）。

3.2 推理（处理器）

Agent的“大脑”负责处理来自传感器的信息并确定相应的行动。该组件实现了智能体的决策算法，并维护所有必要的内部状态。

AI agents使用各种决策机制，例如基于规则的系统、专家系统和神经网络，来做出明智的选择并有效地执行任务。

3.3 行动（执行器）

Agent影响其环境或使智能体能够采取行动的方式。这些方式可以是物理的（机械臂、扬声器），也可以是数字的（数据库更新、显示输出）。

3.4 知识库

agent用于做出决策的信息库，包括预先编程的知识和学习到的信息。

3.5 学习

Agent能够通过从数据和经验中学习，随着时间的推移不断提高其性能，比如使用强化学习、监督学习和无监督学习等技术来提升人工智能智能体的性能。

3.6 通信接口

允许代理与其他代理、系统或人类进行交互。

我们将在以下各节中逐一介绍它们，同时详细说明Agent的工作原理。

四、AI Agent如何与其环境交互

这种交互循环通常被称为 “感知-计划-行动” 循环或 “感知-行动” 循环。让我们以自动驾驶汽车为例来理解每个阶段：

4.1 感知阶段

传感器 → 处理 → 状态更新

Agent通过其传感器接收输入，处理和解释信息，根据新信息更新当前状态。

4.2 决策阶段

这是“思考”阶段，在这个阶段，主体：当前状态 + 目标 → 评估选项 → 选择最佳行动

Agent评估可能的行动，考虑目标和限制条件，根据现有信息选择最佳行动方案。

4.3 行动阶段

这是“执行”阶段：执行操作 → 观察变化 → 开始新周期

执行器执行选定的动作，从而改变环境，Agent通过传感器观察结果，开始新的循环。这个循环不断重复，通常每秒重复多次。这个循环的强大之处在于：

1. 适应性：如果发生意外情况，智能体可以在下一个感知阶段检测到这种情况，并相应地调整其行为。

2. 学习机会：智能体可以将预测结果与实际结果进行比较，以改进未来的决策。

3. 目标导向行为：每个周期都使智能体在遵守约束条件的同时，更接近其目标。

为了从编程角度理解它，让我们用恒温器作比喻，比较三个不同复杂程度的功能：

1）简单程序

# Simple programif temperature > desired_temperature:    turn_on_cooling()

只需遵循既定规则即可，不考虑后果，没有学习或适应能力

2）响应式方案

# Responsive programif temperature > desired_temperature:    if time_of_day == "peak_hours":        turn_on_cooling_eco_mode()    else:        turn_on_cooling_normal()

更复杂的规则，仍然没有真正的智慧

3）AI Agent

class SmartThermostat:    def perceive(self):        current_temp = get_temperature()        time = get_time()        electricity_price = get_current_price()        weather_forecast = get_forecast()        user_preferences = get_preferences()        return Environment(current_temp, time, electricity_price,                          weather_forecast, user_preferences)    def think(self, environment):        possible_actions = [            NoAction(),            CoolNormal(),            CoolEco(),            PreCool(),            WaitForOffPeak()        ]        # Evaluate each action's expected outcome        best_action = None        best_utility = float('-inf')        for action in possible_actions:            predicted_state = predict_future_state(environment, action)            utility = calculate_utility(predicted_state)            if utility > best_utility:                best_action = action                best_utility = utility        return best_action    def act(self, action):        action.execute()        monitor_results()        update_learning_model()

考虑多种因素
预测结果
从经验中学习
着眼于长期目标
平衡相互冲突的目标

同样的循环也适用于所有AI Agent：

聊天机器人感知文本输入，决定合适的回复，并通过生成文本来采取行动。

交易机器人能够感知市场数据，制定交易策略，并通过执行交易来达成交易。

机器人吸尘器能够感知房间布局和污垢情况，决定清洁模式，并通过移动和启动清洁机制来执行清洁操作。

五、AI Agent如何运作？

假设你的智能冰箱不仅会在牛奶喝完时自动订购，还会根据你的浏览习惯建议你换成杏仁奶。这有用还是有点让人不安？你自己判断吧！

AI Agent能够理解人类语言（得益于语言学习模型），能够推理信息，规划行动，并在无需持续人工干预的情况下执行任务。它们可以处理复杂的问题，因此比简单的自动化工具先进得多。与基础脚本不同，人工智能代理被集成到软件系统中，从而能够与环境进行复杂的交互。

AI Agent与简单自动化的不同之处，主要体现在两个方面：

tools 工具
planning 规划

你可能已经看到 ChatGPT 在解决基础数学问题时出错。这是因为它只能根据训练数据做出反应。

同样地，如果我问你 85 乘以 65，作为人类，如果你已经知道答案，你可以直接回答，或者使用计算器这个工具，对吗？其实也可以允许AI Agent使用各种工具。

第二件事是planning。

同样的数学计算，只有懂乘法或者知道要给计算器传递什么参数（85 和 65 以及乘法运算）才能解决这个问题。

以下是AI Agent 查询时的流程。

5.1 编排层（控制中心）

假设我想创建一个 AI Agent会议安排器，我向安排器查询：“我想为我的所有学生举办一场网络研讨会”。这将被视为AI Agent的触发信号。

查询内容可以是文本、音频、视频或图像。（您应该已经知道，无论数据类型是什么，机器最终都会将其转换为数值。）该查询将由AI Agent的编排层（又称控制中心）处理。

编排层共有 4 个主要组件：

记忆：保持对整个互动过程的记忆。
状态：存储整个进程的当前状态。
推理：引导智能体的推理。
规划：步骤是什么？下一步是什么？

它将与模型（LLM）进行交互。

5.2 模型（大脑）

模型是整个Agent的决策者，它通常是一种人工智能模型，例如大型语言模型。

为了理解查询、制定计划并确定下一步行动，该模型使用了如下推理和逻辑框架：

ReAct：（理性+行动）确保深思熟虑的行动；
思维链：通过中间步骤进行推理；
思维树：探索多种路径以找到最佳解决方案

该模型决定采取哪些行动，并使用特定工具执行这些行动。

5.3 工具（双手）

Agent可以利用工具与外部世界进行交互，比如计算器、API、网络搜索、外部数据库等等。

工具使agent能够执行超出模型能力范围的操作、访问实时信息或完成现实世界的任务。

六、何时使用agent / ⛔ 何时避免使用agent

当你需要使用(LLM) 来确定应用程序的工作流程时，agent非常有用。但它们通常有点过度设计。问题是：我真的需要工作流程的灵活性才能高效地完成当前任务吗？如果预先设定的工作流程经常无法满足需求，那就意味着您需要更大的灵活性。举个例子：假设您正在开发一个应用程序，用于处理冲浪旅行网站上的客户请求。

你可以预先知道请求将属于 2 个桶中的哪一个（根据用户的选择），并且你为这两种情况分别预定义了工作流程。

想了解一些旅行信息？⇒ 让他们可以使用搜索栏搜索您的知识库；
想联系销售人员？ ⇒ 让他们填写联系表格。

如果确定性工作流程能够满足所有查询需求，那就完全可以自己编写所有代码！这样就能获得一个 100% 可靠的系统，避免因不可预测的 LLM（逻辑逻辑模型）干预工作流程而引入错误。为了保持系统的简洁性和稳健性，建议尽量避免使用任何agent。

但如果工作流程无法提前那么长时间确定呢？

例如，用户想要问： "I can come on Monday, but I forgot my passport so risk being delayed to Wednesday, is it possible to take me and my stuff to surf on Tuesday morning, with a cancellation insurance?" 这个问题取决于许多因素，而且上面预先设定的标准可能都不足以满足这个请求。

如果预先设定的工作流程经常无法满足需求，那就意味着你需要更大的灵活性。

这时，agent机制就能派上用场了。

在上面的例子中，你可以创建一个多步骤agent，它可以访问天气 API 进行天气预报，访问 Google Maps API 计算出行距离，访问员工可用性仪表板，以及访问知识库中的 RAG 系统。

直到最近，计算机程序还局限于预先设定的工作流程，试图通过堆砌 if/else 语句来处理复杂性。它们专注于极其狭窄的任务，例如“计算这些数字的总和”或“找到图中的最短路径”。但实际上，大多数现实生活中的任务，例如我们上面提到的旅行示例，都无法用预先设定的工作流程来处理。智能体系统为程序打开了通往广阔现实世界任务领域的大门！

七、应用领域

AI agents是用途广泛的工具，能够提升各个领域的生产力、效率和智能水平。它们正被越来越多地应用于日常应用和具有重大影响的先进领域。

八、结论

AI agents正在改变我们与技术的交互方式，展现出前所未有的自主性、智能和适应能力。从简单的反射型agent到复杂的学习系统，它们正被应用于各个行业，以解决复杂问题并增强人类能力。然而，构建高效的AI agents也面临诸多挑战，包括伦理问题、数据依赖性和可扩展性问题。

随着人工智能技术的不断发展，人工智能智能体的未来蕴藏着巨大的潜力。通过聚焦通用人工智能、人机协作以及伦理考量，我们可以创造出不仅能高效完成任务，而且符合人类价值观并对社会做出积极贡献的智能体。

AI agents是能够感知、决策和行动以实现目标的自主系统；
核心组件包括传感器、执行器、决策引擎和学习模块；
AI agents被应用于虚拟助手、自动驾驶汽车和医疗保健等领域。

通过了解基本原理并随时掌握最新进展，我们可以利用AI agents的力量来推动创新，创造更美好的未来。