通过多智能体同行评审协作实现大型语言模型的推理

Nov, 2023

通过多智能体同行评审协作实现大型语言模型的推理

Towards Reasoning in Large Language Models via Multi-Agent Peer Review Collaboration

Zhenran Xu, Senbao Shi, Baotian Hu, Jindi Yu, Dongfang Li...

TL;DR通过多模型协同合作策略，模拟学术同行评审过程的多个代理人独立构建解决方案，相互审查并分配评审置信度，最终通过反复修订得到优于现有方法的结果，在多个推理任务中展示出卓越的准确性，并在数学推理中体现了对评审置信度整合的有效性，为模仿人类的多代理协同过程提供了有前途的方向。

Abstract

large language models (LLMs) have shown remarkable capabilities in general natural language processing tasks but often fall short in complex reasoning tasks. Recent studies have explored human-like problem-solving strategies, such as self-correct, to push further the boundary of single

large language models multi-agent collaboration reasoning tasks peer review process math reasoning

发现论文，激发创造

通过多智能体辩论提高语言模型的事实性和推理能力

该论文介绍了一种新方法，即通过多个语言模型实例的反复辩论和推理过程，以达成一个共同的最终答案，从而改善语言响应的表现，特别是在数学和策略推理方面，改善了已有模型中一些常见问题，如虚假答案和幻觉现象，并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。

May, 2023

MedAgents：大型语言模型作为零 - shot 医学推理的合作伙伴

提出了一种基于大型语言模型（LLMs）的多学科协作（MC）框架，通过角色扮演的 LLM 代理参与协作多轮讨论，增强 LLM 的能力和推理能力，用于挖掘并利用 LLMs 中的医学专业知识和扩展其推理能力，同时在人类评估中找出常见错误并进行消融研究。

Nov, 2023

多智能体协作攻击：通过辩论研究大规模语言模型协作中的对抗攻击

评估模型网络在对抗影响下通过辩论进行合作时的行为，探索推理时间方法生成更令人信服的论点，并评估基于提示的缓解作为一种防御策略的潜力。

Jun, 2024

AgentReview：使用 LLM 代理探索同行评审动态

我们引介了 AgentReview，这是第一个基于大型语言模型（LLM）的同行评审模拟框架，可以有效地解开多个潜在因素的影响并解决隐私问题。研究揭示了诸多重要发现，包括考虑到社会学理论，如社会影响理论、利他主义疲劳和权威偏见，由于审稿人的偏好而导致了显著的 37.1％决策差异。我们相信，这项研究能为改善同行评审机制的设计提供有价值的见解。

Jun, 2024

多智能体协作：发挥智能 LLM 代理的力量

本文提出了一种通过多智能体系统来增强大型语言模型（LLMs）能力的新框架，并通过人工智能领域的案例研究展示了这一框架的实用性和多样性。

Jun, 2023

多智能体系统中的推理能力：限制、挑战和以人为中心的解决方案

利用大型语言模型（LLMs）在多项任务中取得的显著表现带来了在实际环境中利用它们的许多机遇和挑战。为了实现 LLMs 的实际采用，多智能体系统在使用现有专有数据和模型应对复杂现实任务的企业平台的更大背景下，具有增强、整合和协调 LLMs 的巨大潜力。本文提出了 “推理能力” 概念作为统一准则，以实现在优化过程中整合约束并建立系统内不同组件之间的联系，从而实现更全面、综合的评估方法。我们提出了推理能力的正式定义，并说明其在识别系统每个组件的限制方面的实用性。然后，我们讨论了如何通过自反思的过程来解决推理中的缺陷，并增强整个系统的一致性，其中利用人的反馈来缓解推理不足问题。

Feb, 2024

多智能体一致性寻求：基于大型语言模型

研究使用大规模语言模型（LLMs）驱动的多 Agent 系统在协作中解决复杂任务的能力。主要考虑多 Agent 协作中的一个基本问题：共识寻求。通过 Agent 间的协商，研究了一个寻求共识的任务，其中每个 Agent 的状态是数字值，他们彼此协商达成共识值。发现，当没有明确指导应采用哪种策略时，LLM 驱动的 Agent 主要使用平均策略寻求共识，尽管偶尔也会使用其他策略。此外，分析了 Agent 数量、Agent 个性和网络拓扑对协商过程的影响。研究结果为理解 LLM 驱动的多 Agent 系统在解决更复杂任务方面的行为奠定了基础。除此之外，将 LLM 驱动的共识寻求应用于多机器人聚合任务，展示了 LLM 驱动的 Agent 在多机器人协作任务中实现零次规划的潜力。项目网址: westlakeintelligentrobotics.github.io/ConsensusLLM/。

Oct, 2023

基于大型语言模型的人工智能与人类合作解决复杂任务

基于大型语言模型的人机协作研究旨在解决 LLM 智能代理在适应动态环境和完全理解人类需求方面的不足，在此工作中，我们介绍了复杂任务解决中基于 LLM 的人机协作问题，并提出了一种基于强化学习的人机协作方法 ReHAC，该方法通过策略模型确定人类干预的最佳时机，为此我们构建了一个供离线强化学习环境训练该策略模型的人机协作数据集，验证测试结果证实了模型的有效性，研究结果表明，人类和 LLM 智能代理的协同努力通过精心计划的有限人类干预显著提高了复杂任务的性能。数据集和代码可在此链接获取：this https URL

Feb, 2024

语言模型网络中的问题解决

本研究将多智能体辩论的概念扩展到更一般的网络拓扑结构，衡量了问题回答的准确性、影响力、共识以及偏见对集体的影响。结果表明，随机网络与全连接网络效果相似，但使用的令牌数量显著较少。此外，智能体之间存在平衡，自我反思在局部互动出错时有助于解答正确，而局部互动在智能体本身出错时起到帮助作用。偏见在系统性能中起到重要作用，具有正确偏见的中心节点能提升系统性能。这些发现表明，在多智能体系统中使用随机网络或具有知识的智能体位于中心位置的无标度网络可以提高整体性能。

Jun, 2024

利用语言模型进行具身推理的协作

本文探究将强化学习代理人和大规模语言模型相结合，实现在复杂环境中的推理和泛化的能力，通过预训练语言模型作为规划器，简单的合成体智能作为行动器，和与规划器通信的汇报器这三部分，展示这个系统在零 - shot 泛化的任务中的表现，并且讨论了其失败情况以及组件使用增强学习的培训任务。

Feb, 2023