再思限制 LLM 推理的边界：多智能体讨论是关键吗？

Feb, 2024

再思限制 LLM 推理的边界：多智能体讨论是关键吗？

Rethinking the Bounds of LLM Reasoning: Are Multi-Agent Discussions the Key?

Qineng Wang, Zihao Wang, Ying Su, Hanghang Tong, Yangqiu Song

TL;DR通过系统实验，本研究通过提出一种新的群组讨论框架来重新评估多代理讨论对 LLMs 推理能力的改进，并发现，在广泛的推理任务和基于骨干的 LLMs 上，具有强提示的单一代理 LLM 几乎与最佳现有讨论方法表现一致。我们观察到，当提示中没有示范时，多代理讨论的表现优于单一代理，进一步研究揭示了 LLMs 在讨论过程中的常见互动机制。

Abstract

Recent progress in llms discussion suggests that multi-agent discussion improves the reasoning abilities of →

llms multi-agent discussion reasoning abilities group discussion framework interaction mechanisms

发现论文，激发创造

通过多智能体辩论提高语言模型的事实性和推理能力

该论文介绍了一种新方法，即通过多个语言模型实例的反复辩论和推理过程，以达成一个共同的最终答案，从而改善语言响应的表现，特别是在数学和策略推理方面，改善了已有模型中一些常见问题，如虚假答案和幻觉现象，并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。

May, 2023

通过多智能体同行评审协作实现大型语言模型的推理

通过多模型协同合作策略，模拟学术同行评审过程的多个代理人独立构建解决方案，相互审查并分配评审置信度，最终通过反复修订得到优于现有方法的结果，在多个推理任务中展示出卓越的准确性，并在数学推理中体现了对评审置信度整合的有效性，为模仿人类的多代理协同过程提供了有前途的方向。

Nov, 2023

LLM 讨论：通过讨论框架和角色扮演提升大型语言模型的创造力

通过模拟从不同背景和视角的参与者中进行互动讨论来提升大型语言模型创造力，采用三阶段的 LLM 讨论框架，引入角色扮演技术，实现了创造性答案的多样性、多维度的交流，通过多项创造力度量指标超越了现有的单一和多个 LLM 框架。

May, 2024

CoMM: 合作多智能体、多推理路径的复杂问题解决

通过提出协作多代理、多推理路径的提示框架（CoMM），我们旨在推动大型语言模型（LLMs）的推理能力的上限，特别是解决复杂科学问题。

Apr, 2024

基于 LLM 的多智能体强化学习：当前和未来方向

近年来，大型语言模型在问题回答、算术问题解决和诗歌创作等各种任务中展示了强大的能力。尽管关于以大型语言模型为代理的研究表明它可以应用于强化学习并取得不错的结果，但将基于大型语言模型的强化学习扩展到多智能体系统并不容易，因为许多方面，如智能体之间的协调和通信，在单智能体的强化学习框架中没有得到考虑。为了激发更多关于基于大型语言模型的多智能体强化学习的研究，本文调查了现有的基于大型语言模型的单智能体和多智能体强化学习框架，并提供了未来研究的潜在方向。特别关注多智能体共同目标合作任务和它们之间的通信，还考虑了语言组件在框架中实现的人机交互场景。

May, 2024

关于大型语言模型的讨论：代理方的对称与提示的相互作用

通过对大型语言模型的提示工程和多智能体讨论的综合推理两种方法进行讨论，本文从智能体的对称性角度理论上证明了多智能体讨论机制，从实证上揭示了提示工程的精心开发可以接近复杂多智能体机制的最新性能，并提出了一种基于征服和合并的可扩展讨论机制，提供了带有简单提示但具有最新性能的简单多智能体讨论解决方案。

Nov, 2023

多智能体系统中的推理能力：限制、挑战和以人为中心的解决方案

利用大型语言模型（LLMs）在多项任务中取得的显著表现带来了在实际环境中利用它们的许多机遇和挑战。为了实现 LLMs 的实际采用，多智能体系统在使用现有专有数据和模型应对复杂现实任务的企业平台的更大背景下，具有增强、整合和协调 LLMs 的巨大潜力。本文提出了 “推理能力” 概念作为统一准则，以实现在优化过程中整合约束并建立系统内不同组件之间的联系，从而实现更全面、综合的评估方法。我们提出了推理能力的正式定义，并说明其在识别系统每个组件的限制方面的实用性。然后，我们讨论了如何通过自反思的过程来解决推理中的缺陷，并增强整个系统的一致性，其中利用人的反馈来缓解推理不足问题。

Feb, 2024

正式辩证推理是否可以提升 LLMs 的性能？

介绍了一种计算论证语义引擎（MQArgEng）和初步研究，评估引入计算论证语义对大型语言模型性能的影响。实验结果表明 MQArgEng 在大部分考察的主题类别中提供了适度的性能提升，呈现出潜力并值得进一步研究。

May, 2024

通过多智能体辩论促进大型语言模型的发散性思维

本研究提出了多智能体辩论 (MAD) 框架，该框架利用自身分歧思维来解决大型语言模型 (LLMs) 的陈腐思维问题和推理任务不足的问题。实验结果表明，MAD 框架在常识机器翻译和反直觉算术推理等任务上表现良好，且需要较高水平的辩论和调整控制矩阵来保证其效果。

May, 2023

基于大型语言模型的多智能体系统：进展与挑战综述

基于大型语言模型（LLM）的多智能体系统在复杂问题解决和世界模拟中取得了重大进展，我们提供了一份综述，深入讨论了基于 LLM 的多智能体系统的基本方面和挑战。

Jan, 2024