MAgICoRe: 多智能体、迭代、粗到细的推理精炼

Sep, 2024

MAgICoRe: 多智能体、迭代、粗到细的推理精炼

MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning

Justin Chih-Yao Chen, Archiki Prasad, Swarnadeep Saha, Elias Stengel-Eskin, Mohit Bansal

TL;DR本文解决了大型语言模型在推理过程中的过度精炼、错误本地化困难以及精炼次数不足等问题。提出的MAgICoRe方法通过将问题难度分为简单和困难，并采用多智能体反馈循环，显著提高了推理质量。实验证明，MAgICoRe在解决数学习题时，其单次迭代的表现超越了多种基线方法，展现了其有效性和潜在影响。

Abstract

Large Language Models' (LLM) Reasoning can be improved using test-time aggregation strategies, i.e., generating multiple samples and voting among generated samples. While these improve performance, they often rea

发现论文，激发创造

自我改进：带自反馈的迭代改进

通过引入SELF-REFINE框架，可以通过迭代反馈和改进从LLMs获得更好的输出，同时不需要监督训练数据或强化学习，且在7种任务中展现出优越性能。

Mar, 2023

调和：圆桌会议通过多样LLMs达成共识提升推理能力

通过多轮讨论、学习说服他人并采用加权投票机制，ReConcile 提出了一种多模型多智能体框架，以改进大型语言模型的推理能力，并达到更好的共识。

Sep, 2023

MAF: 提升大型语言模型的推理能力的多方面反馈

语言模型在自然语言任务中表现出令人印象深刻的性能，然而，在自然语言推理方面，语言模型仍面临幻觉、生成不正确的中间推理步骤和数学错误等挑战。最近的研究集中于通过自我改进和反馈来增强语言模型。然而，现有的方法依赖于单一的通用反馈来源，无法解决语言模型生成推理链中出现的多种错误类型。在这项工作中，我们提出了一种多方面反馈的迭代改进框架，该框架整合了多个反馈模块，包括冻结的语言模型和外部工具，每个模块都专注于特定的错误类别。我们的实验结果证明了我们的方法在解决语言模型生成的推理链中的几个错误，并因此提高了语言模型在多个推理任务中的整体性能。在数学推理中，我们看到了相对改进高达20%，在逻辑推断中高达18%。

Oct, 2023

LLM细化之艺：问、细化与信任

近年来，大型语言模型展现出了令人瞩目的生成能力，但它们能判断自己生成的质量吗？我们提出了一种名为ART的推理与改进目标，通过提出必要的问题来决定何时应该改进模型的输出，并通过对改进和初始预测进行排名来确认或保留对改进的信任。在数学word问题和问答任务上，ART相较于自我改进的基线表现提高了5个百分点，并且更小的模型作为决策者显示出了使用更小模型进行改进决策的好处，作为经济高效的替代方法。

Nov, 2023

通过多智能体同行评审协作实现大型语言模型的推理

通过多模型协同合作策略，模拟学术同行评审过程的多个代理人独立构建解决方案，相互审查并分配评审置信度，最终通过反复修订得到优于现有方法的结果，在多个推理任务中展示出卓越的准确性，并在数学推理中体现了对评审置信度整合的有效性，为模仿人类的多代理协同过程提供了有前途的方向。

Nov, 2023

MAGDi: 多智能体交互图的结构化蒸馏提升较小语言模型的推理能力

通过多个大型语言模型之间的多智能体交互，结构化蒸馏途径（MAGDi）通过将多智能体交互表示为图形、通过图形编码器增强基础学生模型，并使用三个目标函数进行知识蒸馏，即下一个标记预测、正确和错误推理之间的对比损失以及基于图形的目标函数。对七个广泛使用的常识和数学推理基准进行的实验证明，MAGDi提高了较小模型的推理能力，表现优于从单个教师和多个教师进行蒸馏的几种方法。此外，MAGDi还比其教师高出数量级的效率。我们进行了广泛的分析，显示MAGDi（1）增强了对域外任务的泛化能力，（2）与基础学生模型的大小和强度正相关，（3）在应用自一致性的多教师训练方面取得了更大的改进，后者是一种依赖于模型多样性的推理技术。

Feb, 2024

GLoRe：基于全局与局部细化的LLM推理的何时、何地和如何改进

我们提出了基于步骤的Outcome-based Reward Models (SORMs)来提高语言模型的推理能力，通过合并全局和局部细化模型使模型在GSM8K数据集上的准确率从53%提高到65%。

Feb, 2024

CriticBench: LLMs评估评论改正推理基准

利用CriticBench评估和解析17个大型语言模型在生成、批评和纠正推理（即GQC推理）中的性能，发现GQC能力呈线性关系，批评训练显著增强性能，校正效果因任务而异，逻辑导向任务更容易纠正，模型大小增加可以减少GQC知识的不一致性，强模型在批评弱模型方面表现更好，而弱模型在自我批评方面却能出人意料地超过强模型，为大型语言模型的批评和自我改进研究提供了深入理解。

Feb, 2024

LM2: 简约语言模型社区解决复杂推理

该研究提出了LM2模型，通过将问题分解为多个子问题并利用协调的语言模型进行求解和验证，以提高大型语言模型的复杂多步推理能力。

Apr, 2024

小型语言模型需要强大的验证器来自我修正推理

在小型语言模型上进行自我纠正训练以提高推理能力，通过使用正确解决方案引导模型对不正确的回答进行批判，并使用生成的批评经过筛选后进行自我纠正理由的监督微调，实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升，与GPT-4基于验证器的强配对时取得了显著的性能提升，但使用弱自验证器来确定何时进行更正存在一定的限制。

Apr, 2024