返回文章列表
AI

AI Agents的核心组成部分有哪些?AI Agents 介绍

柒柒
2025-12-01
2天前
AI Agents的核心组成部分有哪些?AI Agents 介绍

随着大型语言模型(LLM)的出现,人工智能取得了巨大的飞跃。这些强大的系统彻底革新了自然语言处理,但只有当它们与自主性——即自主推理、规划和行动的能力——相结合时,才能真正释放其潜力。LLM Agent正是在此发挥作用,代表着我们与人工智能交互和利用方式的范式转变。


    本博客旨在全面概述AI Agent,深入探讨其特征、组成部分和类型,同时探索其发展演变、挑战和未来发展方向。

     我们首先来了解一下从 LLM 到 AI Agent的演变过程。

一、从 LLM 到 AI Agent

      LLM 的应用演变是现代应用中发展最快的,如下图所示:

1.1 传统聊天机器人到基于 LLM 的聊天机器人

    聊天机器人并非新生事物;在生成式人工智能(gen AI)概念出现之前,你可能就已经在网站上与聊天机器人互动过了。生成式人工智能出现之前的传统聊天机器人与如今的 AI 对话代理有着本质区别。以下是它们通常的运作方式:

基于启发式的回应:

  • 传统聊天机器人基于规则逻辑(“如果-那么”语句)运行;
  • 仅限于预定义规则,无法处理复杂或含糊不清的查询;


预设回复:

  • 响应是静态的,并且是预先设定的;
  • 通过检测到特定关键词或短语触发;
  • 缺乏灵活性和对话深度;


人工交接:

  • 始终包含“联系人工客服”按钮,用于解答未解决的问题;
  • 人为干预对于处理复杂问题仍然至关重要;

1.2 介绍基于 LLM 的聊天机器人

ChatGPT 发布: 2022 年 11 月 30 日,OpenAI 推出了基于 GPT-3.5 的 ChatGPT,这是首个主流的语言学习管理(LLM)应用。ChatGPT 保留了用户熟悉的聊天机器人界面,但其背后是经过庞大互联网语料库训练的先进语言学习管理技术。

Transformer 架构: GPT(生成式预训练 Transformer)基于 Google 于 2017 年推出的 Transformer 架构。它使用自注意力机制来分析输入序列,从而更深入地理解上下文。

LLM: 与传统聊天机器人不同,LLM 可以生成类人、上下文相关且新颖的文本。应用场景包括代码生成、内容创作、增强客户服务等等。

局限性:

  • 个性化: 难以在长时间的对话中保持一致的个性化互动;
  • 幻觉: 产生与事实不符但逻辑连贯的回应,根据概率而不是经过验证的知识生成输出;


解决局限性:

  • 使用诸如检索增强生成(RAG) 之类的技术,以使输出结果与可靠的外部数据挂钩。
  • 对大模型进行微调,使其可以理解垂直领域的知识,从而提高 LLM 系统的鲁棒性。

1.3 从基于 LLM 的聊天机器人到 RAG 聊天机器人和 AI Agent

RAG 聊天机器人: 检索增强生成 (RAG) 将外部数据检索与 LLM 功能相结合,以生成准确且符合上下文的回复。

知识来源:

  • 非参数知识: 从互联网或专有数据库等外部来源检索的实时数据;
  • 参数化知识: LLM 在训练过程中嵌入的知识。


优点: 减少幻觉,提供最新信息,并确保可验证的回答。

提示工程: 诸如情境学习(单次、少次)、思维链 (CoT) 和 ReAct 等技术通过指导 LLM 的推理和输出生成来提高响应质量。

AI Agent: AI Agent是从 LLM 演变而来,并增强了工具、多步骤规划和推理能力。

工具使用: LLM 可以通过分析任务并通过结构化模式(例如 JSON)分配参数来调用以编程方式定义的函数或 API。

环境: 人工智能代理在迭代执行环境中运行,能够根据反馈进行动态决策和持续适应。

智能体系统: 这些是具有自主智能体的计算架构,能够集成多个系统组件、做出决策并实现目标。

Agentic RAG:

  • 将 LLM 的推理、工具使用和规划能力与语义信息检索相结合;
  • 能够构建动态系统,该系统可以分解任务、执行复杂查询并利用工具解决问题。


    从 LLM 驱动的聊天机器人过渡到 RAG 聊天机器人和 AI Agent,代表着向更智能、更具适应性和工具集成性的系统转变,这些系统能够实时解决复杂的问题。

二、什么是AI Agent?

     AI agent是一个能够通过传感器感知环境、处理信息并利用执行器对环境采取行动以实现特定目标的系统。 你可以把它想象成一个能够观察、思考和行动的数字实体——就像人类与周围环境互动一样,但它是以一种程序化和有目的的方式进行的。

    AI agent的概念建立在理性行为的基本思想之上:智能体应该采取行动,以最大限度地提高其实现既定目标的成功概率。这种理性使人工智能智能体区别于简单的响应式程序。

AI Agents具有以下几个关键特征:

  • 自主性: 无需人工干预即可运行,独立做出决策;
  • 被动和主动行为: 对环境变化做出反应,并采取积极措施来实现目标;
  • 适应能力: 通过处理新的信息和经验来学习和发展;
  • 目标导向: 致力于实现预定目标或优化结果;
  • 交互性: 与其他智能体或人类进行沟通和协作;
  • 持续运行: 不断运行,监控并响应动态环境。


三、AI Agents的核心组成部分

AI Agents的核心由以下几个部分组成:

  1. Perception 感知
  2. Reasoning 推理
  3. Action 行动
  4. Knowledge Base 知识库
  5. Learning 学习
  6. Communication Interface 通信接口

3.1 感知(传感器)

    这些设备使智能体能够感知其环境。这些设备可以是物理传感器(摄像头、麦克风)或数字输入(数据流、用户交互)。

3.2 推理(处理器)

     Agent的“大脑”负责处理来自传感器的信息并确定相应的行动。该组件实现了智能体的决策算法,并维护所有必要的内部状态。

     AI agents使用各种决策机制,例如基于规则的系统、专家系统和神经网络,来做出明智的选择并有效地执行任务。

3.3 行动(执行器)

     Agent影响其环境或使智能体能够采取行动的方式。这些方式可以是物理的(机械臂、扬声器),也可以是数字的(数据库更新、显示输出)。

3.4 知识库

     agent用于做出决策的信息库,包括预先编程的知识和学习到的信息。

3.5 学习

    Agent能够通过从数据和经验中学习,随着时间的推移不断提高其性能,比如使用强化学习、监督学习和无监督学习等技术来提升人工智能智能体的性能。

3.6 通信接口

     允许代理与其他代理、系统或人类进行交互。

我们将在以下各节中逐一介绍它们,同时详细说明Agent的工作原理。

四、AI Agent如何与其环境交互

    这种交互循环通常被称为 “感知-计划-行动” 循环或 “感知-行动” 循环。让我们以自动驾驶汽车为例来理解每个阶段:

4.1 感知阶段

传感器 → 处理 → 状态更新

    Agent通过其传感器接收输入,处理和解释信息,根据新信息更新当前状态。

4.2 决策阶段

     这是“思考”阶段,在这个阶段,主体:当前状态 + 目标 → 评估选项 → 选择最佳行动

     Agent评估可能的行动,考虑目标和限制条件,根据现有信息选择最佳行动方案。

4.3 行动阶段

这是“执行”阶段:执行操作 → 观察变化 → 开始新周期

    执行器执行选定的动作,从而改变环境,Agent通过传感器观察结果,开始新的循环。这个循环不断重复,通常每秒重复多次。这个循环的强大之处在于:

1. 适应性: 如果发生意外情况,智能体可以在下一个感知阶段检测到这种情况,并相应地调整其行为。

2. 学习机会: 智能体可以将预测结果与实际结果进行比较,以改进未来的决策。

3. 目标导向行为: 每个周期都使智能体在遵守约束条件的同时,更接近其目标。

    为了从编程角度理解它,让我们用恒温器作比喻,比较三个不同复杂程度的功能:

1)简单程序


# Simple programif temperature > desired_temperature:    turn_on_cooling()

只需遵循既定规则即可,不考虑后果,没有学习或适应能力

2)响应式方案

# Responsive programif temperature > desired_temperature:    if time_of_day == "peak_hours":        turn_on_cooling_eco_mode()    else:        turn_on_cooling_normal()

更复杂的规则,仍然没有真正的智慧

3)AI Agent

class SmartThermostat:    def perceive(self):        current_temp = get_temperature()        time = get_time()        electricity_price = get_current_price()        weather_forecast = get_forecast()        user_preferences = get_preferences()        return Environment(current_temp, time, electricity_price,                          weather_forecast, user_preferences)    def think(self, environment):        possible_actions = [            NoAction(),            CoolNormal(),            CoolEco(),            PreCool(),            WaitForOffPeak()        ]        # Evaluate each action's expected outcome        best_action = None        best_utility = float('-inf')        for action in possible_actions:            predicted_state = predict_future_state(environment, action)            utility = calculate_utility(predicted_state)            if utility > best_utility:                best_action = action                best_utility = utility        return best_action    def act(self, action):        action.execute()        monitor_results()        update_learning_model()
  • 考虑多种因素
  • 预测结果
  • 从经验中学习
  • 着眼于长期目标
  • 平衡相互冲突的目标


同样的循环也适用于所有AI Agent:

    聊天机器人感知文本输入,决定合适的回复,并通过生成文本来采取行动。

    交易机器人能够感知市场数据,制定交易策略,并通过执行交易来达成交易。

    机器人吸尘器能够感知房间布局和污垢情况,决定清洁模式,并通过移动和启动清洁机制来执行清洁操作。

五、AI Agent如何运作?

     假设你的智能冰箱不仅会在牛奶喝完时自动订购,还会根据你的浏览习惯建议你换成杏仁奶。这有用还是有点让人不安?你自己判断吧!

     AI Agent能够理解人类语言(得益于语言学习模型),能够推理信息,规划行动,并在无需持续人工干预的情况下执行任务。它们可以处理复杂的问题,因此比简单的自动化工具先进得多。与基础脚本不同,人工智能代理被集成到软件系统中,从而能够与环境进行复杂的交互。

AI Agent与简单自动化的不同之处,主要体现在两个方面:

  • tools 工具
  • planning 规划


     你可能已经看到 ChatGPT 在解决基础数学问题时出错。这是因为它只能根据训练数据做出反应。

    同样地,如果我问你 85 乘以 65,作为人类,如果你已经知道答案,你可以直接回答,或者使用计算器这个工具,对吗?其实也可以允许AI Agent使用各种工具。

第二件事是planning。

    同样的数学计算,只有懂乘法或者知道要给计算器传递什么参数(85 和 65 以及乘法运算)才能解决这个问题。

以下是AI Agent 查询时的流程。

5.1 编排层(控制中心)

     假设我想创建一个 AI Agent会议安排器,我向安排器查询:“我想为我的所有学生举办一场网络研讨会”。这将被视为AI Agent的触发信号。

    查询内容可以是文本、音频、视频或图像。(您应该已经知道,无论数据类型是什么,机器最终都会将其转换为数值。)该查询将由AI Agent的编排层(又称控制中心)处理。

编排层共有 4 个主要组件:

  • 记忆 :保持对整个互动过程的记忆。
  • 状态 :存储整个进程的当前状态。
  • 推理 :引导智能体的推理。
  • 规划 :步骤是什么?下一步是什么?

它将与模型(LLM)进行交互。

5.2 模型(大脑)

    模型是整个Agent的决策者,它通常是一种人工智能模型,例如大型语言模型。

    为了理解查询、制定计划并确定下一步行动,该模型使用了如下推理和逻辑框架:

  • ReAct:(理性+行动)确保深思熟虑的行动;
  • 思维链:通过中间步骤进行推理;
  • 思维树:探索多种路径以找到最佳解决方案

    该模型决定采取哪些行动,并使用特定工具执行这些行动。

5.3 工具(双手)

    Agent可以利用工具与外部世界进行交互,比如计算器、API、网络搜索、外部数据库等等。

    工具使agent能够执行超出模型能力范围的操作 、访问实时信息或完成现实世界的任务。

六、何时使用agent / ⛔ 何时避免使用agent

    当你需要使用(LLM) 来确定应用程序的工作流程时,agent非常有用。但它们通常有点过度设计。问题是:我真的需要工作流程的灵活性才能高效地完成当前任务吗?如果预先设定的工作流程经常无法满足需求,那就意味着您需要更大的灵活性。举个例子:假设您正在开发一个应用程序,用于处理冲浪旅行网站上的客户请求。

    你可以预先知道请求将属于 2 个桶中的哪一个(根据用户的选择),并且你为这两种情况分别预定义了工作流程。

  1. 想了解一些旅行信息?⇒ 让他们可以使用搜索栏搜索您的知识库;
  2. 想联系销售人员? ⇒ 让他们填写联系表格。

     如果确定性工作流程能够满足所有查询需求,那就完全可以自己编写所有代码!这样就能获得一个 100% 可靠的系统,避免因不可预测的 LLM(逻辑逻辑模型)干预工作流程而引入错误。为了保持系统的简洁性和稳健性,建议尽量避免使用任何agent。

但如果工作流程无法提前那么长时间确定呢?

    例如,用户想要问: "I can come on Monday, but I forgot my passport so risk being delayed to Wednesday, is it possible to take me and my stuff to surf on Tuesday morning, with a cancellation insurance?" 这个问题取决于许多因素,而且上面预先设定的标准可能都不足以满足这个请求。

    如果预先设定的工作流程经常无法满足需求,那就意味着你需要更大的灵活性。

     这时,agent机制就能派上用场了。

     在上面的例子中,你可以创建一个多步骤agent,它可以访问天气 API 进行天气预报,访问 Google Maps API 计算出行距离,访问员工可用性仪表板,以及访问知识库中的 RAG 系统。

    直到最近,计算机程序还局限于预先设定的工作流程,试图通过堆砌 if/else 语句来处理复杂性。它们专注于极其狭窄的任务,例如“计算这些数字的总和”或“找到图中的最短路径”。但实际上,大多数现实生活中的任务,例如我们上面提到的旅行示例,都无法用预先设定的工作流程来处理。智能体系统为程序打开了通往广阔现实世界任务领域的大门!

七、应用领域

     AI agents是用途广泛的工具,能够提升各个领域的生产力、效率和智能水平。它们正被越来越多地应用于日常应用和具有重大影响的先进领域。

八、结论

    AI agents正在改变我们与技术的交互方式,展现出前所未有的自主性、智能和适应能力。从简单的反射型agent到复杂的学习系统,它们正被应用于各个行业,以解决复杂问题并增强人类能力。然而,构建高效的AI agents也面临诸多挑战,包括伦理问题、数据依赖性和可扩展性问题。

     随着人工智能技术的不断发展,人工智能智能体的未来蕴藏着巨大的潜力。通过聚焦通用人工智能、人机协作以及伦理考量,我们可以创造出不仅能高效完成任务,而且符合人类价值观并对社会做出积极贡献的智能体。

  • AI agents是能够感知、决策和行动以实现目标的自主系统;
  • 核心组件包括传感器、执行器、决策引擎和学习模块;
  • AI agents被应用于虚拟助手、自动驾驶汽车和医疗保健等领域。

     通过了解基本原理并随时掌握最新进展,我们可以利用AI agents的力量来推动创新,创造更美好的未来。


本文内容仅供参考,不构成任何专业建议。使用本文提供的信息时,请自行判断并承担相应风险。

分享文章
合作伙伴

本站所有广告均是第三方投放,详情请查询本站用户协议