MAgICoRe: 多智能体、迭代、粗到细的推理精炼
通过多轮讨论、学习说服他人并采用加权投票机制,ReConcile 提出了一种多模型多智能体框架,以改进大型语言模型的推理能力,并达到更好的共识。
Sep, 2023
语言模型在自然语言任务中表现出令人印象深刻的性能,然而,在自然语言推理方面,语言模型仍面临幻觉、生成不正确的中间推理步骤和数学错误等挑战。最近的研究集中于通过自我改进和反馈来增强语言模型。然而,现有的方法依赖于单一的通用反馈来源,无法解决语言模型生成推理链中出现的多种错误类型。在这项工作中,我们提出了一种多方面反馈的迭代改进框架,该框架整合了多个反馈模块,包括冻结的语言模型和外部工具,每个模块都专注于特定的错误类别。我们的实验结果证明了我们的方法在解决语言模型生成的推理链中的几个错误,并因此提高了语言模型在多个推理任务中的整体性能。在数学推理中,我们看到了相对改进高达20%,在逻辑推断中高达18%。
Oct, 2023
近年来,大型语言模型展现出了令人瞩目的生成能力,但它们能判断自己生成的质量吗?我们提出了一种名为ART的推理与改进目标,通过提出必要的问题来决定何时应该改进模型的输出,并通过对改进和初始预测进行排名来确认或保留对改进的信任。在数学word问题和问答任务上,ART相较于自我改进的基线表现提高了5个百分点,并且更小的模型作为决策者显示出了使用更小模型进行改进决策的好处,作为经济高效的替代方法。
Nov, 2023
通过多模型协同合作策略,模拟学术同行评审过程的多个代理人独立构建解决方案,相互审查并分配评审置信度,最终通过反复修订得到优于现有方法的结果,在多个推理任务中展示出卓越的准确性,并在数学推理中体现了对评审置信度整合的有效性,为模仿人类的多代理协同过程提供了有前途的方向。
Nov, 2023
通过多个大型语言模型之间的多智能体交互,结构化蒸馏途径(MAGDi)通过将多智能体交互表示为图形、通过图形编码器增强基础学生模型,并使用三个目标函数进行知识蒸馏,即下一个标记预测、正确和错误推理之间的对比损失以及基于图形的目标函数。对七个广泛使用的常识和数学推理基准进行的实验证明,MAGDi提高了较小模型的推理能力,表现优于从单个教师和多个教师进行蒸馏的几种方法。此外,MAGDi还比其教师高出数量级的效率。我们进行了广泛的分析,显示MAGDi(1)增强了对域外任务的泛化能力,(2)与基础学生模型的大小和强度正相关,(3)在应用自一致性的多教师训练方面取得了更大的改进,后者是一种依赖于模型多样性的推理技术。
Feb, 2024
我们提出了基于步骤的Outcome-based Reward Models (SORMs)来提高语言模型的推理能力,通过合并全局和局部细化模型使模型在GSM8K数据集上的准确率从53%提高到65%。
Feb, 2024
利用CriticBench评估和解析17个大型语言模型在生成、批评和纠正推理(即GQC推理)中的性能,发现GQC能力呈线性关系,批评训练显著增强性能,校正效果因任务而异,逻辑导向任务更容易纠正,模型大小增加可以减少GQC知识的不一致性,强模型在批评弱模型方面表现更好,而弱模型在自我批评方面却能出人意料地超过强模型,为大型语言模型的批评和自我改进研究提供了深入理解。
Feb, 2024
在小型语言模型上进行自我纠正训练以提高推理能力,通过使用正确解决方案引导模型对不正确的回答进行批判,并使用生成的批评经过筛选后进行自我纠正理由的监督微调,实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升,与GPT-4基于验证器的强配对时取得了显著的性能提升,但使用弱自验证器来确定何时进行更正存在一定的限制。
Apr, 2024