CoMM: 合作多智能体、多推理路径的复杂问题解决

ACLApr, 2024

CoMM: 合作多智能体、多推理路径的复杂问题解决

CoMM: Collaborative Multi-Agent, Multi-Reasoning-Path Prompting for Complex Problem Solving

Pei Chen, Boran Han, Shuai Zhang

TL;DR通过提出协作多代理、多推理路径的提示框架（CoMM），我们旨在推动大型语言模型（LLMs）的推理能力的上限，特别是解决复杂科学问题。

Abstract

large language models (LLMs) have shown great ability in solving traditional natural language tasks and elementary reasoning tasks with appropriate prompting techniques. However, their ability is still limited in

large language models collaborative multi-agent multi-reasoning-path prompting techniques science problems

发现论文，激发创造

更多询问，更深了解：基于大语言模型的增强学习问句在决策制定中的应用

利用领导者 - 追随者双层框架，本文实现了一个完全集成的端到端框架，用于处理复杂的推理任务，并通过引入历史发现为生成合适的问题（提示）提供指导，进而指导行动学习。

Oct, 2023

通过多智能体辩论提高语言模型的事实性和推理能力

该论文介绍了一种新方法，即通过多个语言模型实例的反复辩论和推理过程，以达成一个共同的最终答案，从而改善语言响应的表现，特别是在数学和策略推理方面，改善了已有模型中一些常见问题，如虚假答案和幻觉现象，并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。

May, 2023

通过多智能体同行评审协作实现大型语言模型的推理

通过多模型协同合作策略，模拟学术同行评审过程的多个代理人独立构建解决方案，相互审查并分配评审置信度，最终通过反复修订得到优于现有方法的结果，在多个推理任务中展示出卓越的准确性，并在数学推理中体现了对评审置信度整合的有效性，为模仿人类的多代理协同过程提供了有前途的方向。

Nov, 2023

支持半自主任务学习的语言模型提示改进

本文探讨利用语言模型 (LLMs) 作为知识源，辅助 agent 学习新任务的能力。通过使用构建提示词（或 “暗示”），研究什么样的响应既合理，又可以满足 Agent 任务上下文。研究结果表明，在线 agent 任务学习可以从 LLMs 获取可操作的任务知识。

Sep, 2022

角色扮演引导的零样本推理的改进

通过角色扮演提示方法，在各种推理基准测试中展示了大型语言模型 (LLMs) 的推理能力的提升。

Aug, 2023

大型语言模型的元推理

Meta-Reasoning Prompting（MRP）是一种受人类元推理启发的用于大型语言模型（LLMs）的新型高效系统提示方法，通过动态选择和应用不同的推理方法来优化性能和计算效率，实现了在不同任务中达到或接近最先进性能的结果。

Jun, 2024

通过知识图谱集成协作的强化提示型 LLM 推理方案

利用大型语言模型 (LLMs) 和知识图谱 (KG) 的协作训练方法，本研究在知识图谱的指导下，通过迭代探索和选择性地检索任务相关的知识子图来支持推理，使得 LLMs 能更可靠地进行基于知识的推理，并同时明确阐述推理过程，实验结果表明本方法在多个数据集上显著改进，尤其在 QALD10 数据集上相对于最佳基线和最先进的方法提高了超过 10%，为今后的知识图谱和大型语言模型融合研究提供了有价值的参考，提升 LLMs 在解决复杂问题上的能力。

Feb, 2024

再思限制 LLM 推理的边界：多智能体讨论是关键吗？

通过系统实验，本研究通过提出一种新的群组讨论框架来重新评估多代理讨论对 LLMs 推理能力的改进，并发现，在广泛的推理任务和基于骨干的 LLMs 上，具有强提示的单一代理 LLM 几乎与最佳现有讨论方法表现一致。我们观察到，当提示中没有示范时，多代理讨论的表现优于单一代理，进一步研究揭示了 LLMs 在讨论过程中的常见互动机制。

Feb, 2024

基于有限样本的思维链驱动推理用于开放式医学问题回答的 LLMs

使用大型语言模型（LLMs）自动化医疗任务，如临床记录、信息检索和决策支持。我们提出一种修改的 MedQA-USMLE 数据集，用于模拟真实的临床场景，并探索基于思维链（CoT）推理的主观响应生成，以获取正确的医疗问题答案。我们还利用回报训练机制和人类参与，开发了更好的对比学习策略，并通过增量推理的提示得出贪婪解码方法比其他策略更好的结论。

Mar, 2024

大型语言模型的思路链主动提示

本文提出了一种新的方法 Active-Prompt，通过任务特定的示例提示来适应 LLMs 的不同任务，通过从特定的查询池中选择最不确定的问题进行注释来确定哪些问题是最重要和有帮助的。经验结果表明了我们提出的方法的优越性，取得了八项复杂推理任务的最新成果。

Feb, 2023