196体育(中国)官方首页-IOS/安卓通用版/手机APP下载

您当前位置:

196体育(中国)官方首页-IOS/安卓通用版/手机APP下载 > 设计团队

196体育平台首页玩转「智能体魔方」!清华推出AgentSquare模块化搜索框架开启AI智能体高速进化时代

发布时间:2024-11-08 浏览次数:

  196体育app官网196体育app官网196体育app官网AI智能体能像有机生命一样自适应演化吗?最近清华大学团队提出了AgentSquare模块化智能体设计框架,通过标准化的模块接口抽象,让AI智能体可以通过模块演化和重组高速进化,实现针对不同任务场景的自适应演进,赋能超越人类设计的智能体系统在多种评测数据集上广泛自我涌现。

  优秀基因的演化和重组,是生命体适应环境196体育平台首页、永葆活力的自然法则。AI智能体能否像有机生命一样,实现适应任务环境的高效自我演化?

  大模型智能体的快速发展在数学、医疗、个人助手等各领域产生了突破性应用,但依赖专家知识的手工设计方法制约了它们的任务自适应能力。如何实现AI智能体针对不同任务场景的高速自我演进一直是一个棘手的难题。

  为了解决这一问题,清华大学数据科学与智能实验室提出了「AgentSquare-智能体魔方」,推出了模块化的智能体系统设计与搜索新范式。

  标准化的模块接口抽象,使得任务规划、常识推理、工具使用等经典智能体模块的重组如同「拧魔方」一般轻松。同时,演化产生的新颖模块也可被直接组装应用于其他智能体系统。

  在网页、具身、工具、游戏等不同场景的六个基准数据集上测试,显示AgentSquare均能高效发现显著优于已知人类设计的新颖智能体系统。「AgentSquare-智能体魔方」开启了模块化智能体设计搜索的「变形金刚」时代。

  AgentSquare的关键创新来自于模块化设计空间的提出。研究团队系统梳理了AI顶会的大量智能体研究,提炼出了16种经典智能体设计,并将其归纳为一个模块化智能体设计空间。

  在这个设计框架中,LLM智能体被简化为四个核心模块有机协作:任务规划(Planning)、常识推理(Reasoning)、工具使用(Tool Use)和记忆学习(Memory)。

  研究团队还对不同代码框架进行了标准化整合,抽象出了标准化的模块接口,让每个模块可以像拧魔方一样轻松替换。 这 样,AgentSquare既能支持现有经典设计的组合创新,也能加速新智能体模块的高效探索。

  任务规划(Planning):将任务指令拆解为一系列子任务,提供清晰的行动指南

  常识推理(Reasoning):引导智能体进行有条理的结构化推理,如「思维链」,提高推理准确度

  工具使用(Tool Use):当内部知识不够时,选择合适的外部工具辅助任务完成

  基于这四大模块,研究团队设计了一个智能体工作流程模板(Agentic Workflow)。

  如图2所示,智能体会先用任务规划模块将复杂任务指令分解成小步骤,逐步由常识推理模块执行子任务。

  当遇到知识盲区时,智能体就会借助工具使用模块调用外部工 具,同时记忆学习模块保存相关经验,为后续任务提供支持。

  最终,子任务推理结果会转化为实际行动,并在环境反馈的帮助下不断优化计划,直到任务完成或达到尝试上限为止。

  基于模块化设计空间,AgentSquare带来了一个新的研究课题——模块化智能体搜索(MoLAS)。

  MoLAS的主要技术问题在于(1)如何快速找到适应任务的最优模块组合(2)如何发现新颖的、更优的模块设计。解决这一问题面临着组合搜索空间庞大、新模块设计缺乏指引以及智能体评测成本高昂的三大挑战。

  为了应对MoLAS的挑战,研究团队推出了AgentSquare演化搜索算法,包含三大核心功能:模块重组、模块进化和代理评测模型。

  图5 AgentSquare框架——通过模块进化和重组实现AI智能体高效自适应演化

  考虑到智能体广阔的设计空间,仅靠提示词(或代码)改写的简单策略只能在原有设计之上做微小调整,难以实现高效搜索。

  为此,AgentSquare引入了LLM作为「重组提议者」 (Recombination proposer LLM),基于对性能评测经验的深入分析,提出重组高性能模块的智能体设计方案,模拟生命体重组优秀基因的过程。

  模块重组功能通过对智能体顶层架构的大幅优化探索,实现远超底层「提示词改写」的优化演进速度。

  模块进化(Module Evolution):积累底层变异,探索新颖设计

  仅通过重组现有模块并不足够,AgentSquare还引入了模块进化功能,以便在代码层级探索全新模块的可能。

  该功能引入一个作为代码编程者的LLM(Module-programming LLM)结合设计的模块进化元提示(Evolutionary meta-prompt)来探索新的模块设计,指导智能体生成新模块的设计方案。

  通过模块重组与进化,AgentSquare大幅拓展了设计空间的搜索范围,并为智能体引入了更多创新性设计。

  代理评测模型(Surrogate Model):节省评测成本,加快优化搜索

  例如,在ALFWorld评测数据集上,评测一个GPT-4驱动的「思维链」智能体需耗费近60美元。为了解决这一问题,AgentSquare引入了一个代理评测模型(Surrogate Model)来预测智能体性能。

  这个模型通过召回并对比相似智能体的历史评测数据,快速预测新智能体的表现,从而筛选出性能较差的提案。实验表明,代理模型的预测效果与实际评测接近,R-Square达到了0.95,且其token开销仅为线 「代理评测模型」有效性验证

  性能和成本的联合分析显示,AgentSquare不仅提高了智能体的表现196体育平台首页,还有效控制了推理成本。通过设计reward函数(如将token开销纳入搜索目标),AgentSquare能够在性能和成本之间灵活权衡。

  此外,研究团队对搜索过程进行了详细分析,发现其他方法很快遇到性能瓶颈,而AgentSquare表现出更高效的搜索路径和更低的评测成本。

  目前,AgentSquare在各项任务中生成的新模块均已开源,方便后续研究者复用和优化。AgentSquare不仅能灵活识别最适合任务需求的模块组合,还能有效整合已有和创新模块。

  图9 AgentSquare搜索在各任务中发现的新模块及性能最好的模块组合

  缘分!郑钦文半决赛遭遇克雷吉茨科娃,21年不识对方请主持tell me

  林诗栋3-0 莫雷加德3-0 何卓佳3-0 王曼昱3-1 八强对阵及赛程出炉

  三星电子AI热潮中落后痛失1260亿美元 奋力追赶HBM4能否挽回败局?

  怎么从3岁小孩身上看到了“油腻”?撇嘴、塌肩、垮腰,一个不落!小孩姐:承认吧,你也很为我着迷吧!

  首发6299元!影驰RTX 4070 Ti SUPER 金属大师PLUS OC正式发售

联系地址:广东省广州市天河区88号

联系电话:400-123-4567

E-mail:admin@lichuanyeya.com

服务热线:13800000000

扫一扫,关注我们

Copyright © 2012-2023 196体育(中国)官方首页-IOS/安卓通用版/手机APP下载 版权所有

皖ICP备2021013452号