Sibyl: 复杂现实世界推理的简单而有效的代理框架

Jul, 2024

Sibyl: 复杂现实世界推理的简单而有效的代理框架

Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning

Yulong Wang, Tianhao Shen, Lifeng Liu, Jian Xie

TL;DR利用大型语言模型解决复杂推理任务的 Sibyl 框架，通过整合语言模型的知识、上下文学习和零-shot能力，并结合复杂的调用工作流和全局工作空间，实现了系统优化和知识共享，同时利用多智能体辩论来提供全面且平衡的答案。实验结果表明，Sibyl 在 GAIA 基准测试上表现优异，希望能激发更可靠且可复用的基于语言模型的解决方案来应对复杂的实际推理任务。

Abstract

Existing agents based on large language models (LLMs) demonstrate robust problem-solving capabilities by integrating LLMs' inherent knowledge, strong in-context learning and zero-shot capabilities, and the use of tools combined with intricately designed LLM invocation workflows by huma

发现论文，激发创造

基于大型语言模型的自主代理的调查

通过对基于大语言模型的自主代理的综合调查，本文提出了一个统一框架来概括以往研究，并总结了在社会科学、自然科学和工程领域中应用大语言模型的人工智能代理的各种应用及评估策略。同时，我们还讨论了该领域的挑战和未来方向。

Aug, 2023

基于大语言模型的智能代理的崛起与潜力：一项调查

人工智能代理是一个前景光明的领域，利用大型语言模型作为基础构建通用人工智能代理带来了显著的进展，其在单一代理场景、多代理场景以及人机合作中的广泛应用展示了卓越的潜力，并为人类社会提供了有价值的见解。

Sep, 2023

Corex：通过多模型协同推动复杂推理的边界

大型语言模型(Corex)通过引入多模型协作策略，在处理复杂任务时改善了推理过程的准确性、可靠性和可信度，通过实验证明协调多个大型语言模型的工作比现有方法表现出更好的性能，并促进了不同大型语言模型的标注效率。

Sep, 2023

通过多智能体同行评审协作实现大型语言模型的推理

通过多模型协同合作策略，模拟学术同行评审过程的多个代理人独立构建解决方案，相互审查并分配评审置信度，最终通过反复修订得到优于现有方法的结果，在多个推理任务中展示出卓越的准确性，并在数学推理中体现了对评审置信度整合的有效性，为模仿人类的多代理协同过程提供了有前途的方向。

Nov, 2023

探索基于大型语言模型的智能代理：定义、方法与前景

对基于大型语言模型（LLM）的智能代理进行了深入调查，涵盖了单代理和多代理系统中的定义、研究框架、组成、认知和规划方法、工具利用、对环境反馈的响应，以及在多代理系统中部署LLM-based代理的机制，包括多角色协作、信息传递和缓解代理之间通信问题的策略，同时介绍了流行的数据集和应用场景，最后展望了基于LLM的代理在人工智能和自然语言处理领域的前景。

Jan, 2024

多智能体系统中的推理能力：限制、挑战和以人为中心的解决方案

利用大型语言模型（LLMs）在多项任务中取得的显著表现带来了在实际环境中利用它们的许多机遇和挑战。为了实现LLMs的实际采用，多智能体系统在使用现有专有数据和模型应对复杂现实任务的企业平台的更大背景下，具有增强、整合和协调LLMs的巨大潜力。本文提出了“推理能力”概念作为统一准则，以实现在优化过程中整合约束并建立系统内不同组件之间的联系，从而实现更全面、综合的评估方法。我们提出了推理能力的正式定义，并说明其在识别系统每个组件的限制方面的实用性。然后，我们讨论了如何通过自反思的过程来解决推理中的缺陷，并增强整个系统的一致性，其中利用人的反馈来缓解推理不足问题。

Feb, 2024

基于大型语言模型的多智能体系统：进展与挑战综述

基于大型语言模型（LLM）的多智能体系统在复杂问题解决和世界模拟中取得了重大进展，我们提供了一份综述，深入讨论了基于LLM的多智能体系统的基本方面和挑战。

Jan, 2024

KG-Agent: 知识图谱复杂推理的高效自主代理框架

本研究旨在通过知识图谱改进大型语言模型 (LLM) 的推理能力，以回答复杂问题。我们提出了一种自主的基于LLM的智能体框架KG-Agent，它允许一个小型LLM主动作出决策，直到完成对知识图谱的推理过程。在KG-Agent中，我们整合了LLM、多功能工具箱、基于知识图谱的执行器和知识存储器，并开发了一个迭代机制，自主选择工具，然后更新用于对知识图谱进行推理的记忆。为了保证有效性，我们利用程序语言对知识图谱上的多跳推理过程进行了规范，并合成了基于代码的指令数据集，以对基础LLM进行微调。大量实验证明，仅使用10K个样本对LLaMA-7B进行微调就能在领域内外的数据集上超过使用更大的LLM或更多数据的现有方法。我们的代码和数据将公开发布。

Feb, 2024

通过调整和多分支推理增强低参数LLMs的普通代理能力

通过构建特定于代理的数据和有监督微调模型，以及设计有效激活大型语言模型推理能力的提示方法，我们提出了一种综合的方法来提高大型语言模型作为代理的性能，并通过在AgentBench的五个代理任务上的评估取得了令人满意的结果。

Mar, 2024

AgentQuest: 一个模块化的基准测试框架，用于衡量和提升LLM代理的进展

通过构建可扩展的模块化基准和评估指标，提出了AgentQuest框架用于追踪和改进大规模语言模型代理在解决复杂多步骤推理任务中的性能。

Apr, 2024