MAF: 提升大型语言模型的推理能力的多方面反馈

EMNLPOct, 2023

MAF: 提升大型语言模型的推理能力的多方面反馈

MAF: Multi-Aspect Feedback for Improving Reasoning in Large Language Models

Deepak Nathani, David Wang, Liangming Pan, William Yang Wang

TL;DR语言模型在自然语言任务中表现出令人印象深刻的性能，然而，在自然语言推理方面，语言模型仍面临幻觉、生成不正确的中间推理步骤和数学错误等挑战。最近的研究集中于通过自我改进和反馈来增强语言模型。然而，现有的方法依赖于单一的通用反馈来源，无法解决语言模型生成推理链中出现的多种错误类型。在这项工作中，我们提出了一种多方面反馈的迭代改进框架，该框架整合了多个反馈模块，包括冻结的语言模型和外部工具，每个模块都专注于特定的错误类别。我们的实验结果证明了我们的方法在解决语言模型生成的推理链中的几个错误，并因此提高了语言模型在多个推理任务中的整体性能。在数学推理中，我们看到了相对改进高达 20%，在逻辑推断中高达 18%。

Abstract

language models (LMs) have shown impressive performance in various natural language tasks. However, when it comes to natural language reasoning, LMs still face challenges such as →

language models natural language reasoning hallucination mathematical errors multi-aspect feedback

发现论文，激发创造

通过多智能体辩论提高语言模型的事实性和推理能力

该论文介绍了一种新方法，即通过多个语言模型实例的反复辩论和推理过程，以达成一个共同的最终答案，从而改善语言响应的表现，特别是在数学和策略推理方面，改善了已有模型中一些常见问题，如虚假答案和幻觉现象，并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。

May, 2023

逐步强化

通过利用人类反馈的强化学习方法，本研究探索了两种奖励机制：基于结果监督的奖励模型和基于过程监督的奖励模型，以优化语言模型的逻辑推理能力，结果显示基于过程监督的方法可以提高简单数学推理的准确性，但意外地降低了复杂任务的表现，并且认为奖励聚合函数在模型性能中扮演着关键的作用，强调有必要进一步研究细粒度奖励模型以提高语言模型的可靠性。

Nov, 2023

通过多角度微调提高数学推理的泛化能力

本文提出了一种新的数学推理多视角微调方法，能够在避免过度依赖大型模型的情况下，提高小型语言模型的性能，并且能够灵活地学习不同的注释格式以及在不同数据集上实现良好的泛化能力和学习能力。

Jul, 2023

构建可靠流畅的大型语言模型：在问答系统中引入反馈学习循环

为了解决大型语言模型在引文、正确性和流畅度方面存在的问题，本研究通过构建数据集、引入自动化反馈机制和反馈学习循环，成功提高了 ChatGPT 的引文和流畅度指标，并保持高水平的正确性。

Sep, 2023

大型语言模型中最小化事实不一致和幻觉

提出了一个多阶段的框架，通过生成合理的依据并验证修正错误，将其作为支持参考生成答案，提高了 GPT-3.5-turbo 在生命科学行业药物相关查询中的响应质量。该框架使得 GPT-3.5-turbo 对两个数据集的答案更可靠和准确，并通过与商业模型进行竞争，提高了小型开放访问的 LLMs 的准确性。

Nov, 2023

通过多智能体同行评审协作实现大型语言模型的推理

通过多模型协同合作策略，模拟学术同行评审过程的多个代理人独立构建解决方案，相互审查并分配评审置信度，最终通过反复修订得到优于现有方法的结果，在多个推理任务中展示出卓越的准确性，并在数学推理中体现了对评审置信度整合的有效性，为模仿人类的多代理协同过程提供了有前途的方向。

Nov, 2023

利用细粒度自然语言反馈进行学习优化

使用三个不同的大型语言模型 (LMM) 能力，通过细粒度的自然语言反馈和排除错误提高事实一致性，优于现有端到端细化方法和当前未经调整的模型。

Jul, 2024

ARES：交替强化学习和监督微调，通过多样化的 AI 反馈提升多模态链式思维推理

大型多模型 (LMMs) 在理解人类指令方面表现出色，并在各种任务中展现出显著的结果。通过强化学习来自人类反馈 (RLHF) 和人工智能反馈 (RLAIF) 进一步完善了 LLMs，通过将其与特定偏好对齐。我们提出了一种两阶段算法 AREAS，交替使用强化学习和监督微调。我们请求 Teacher 对每个句子对于解决问题的贡献进行评分，这种句子级别的反馈使得我们可以考虑个别有价值的段落，为强化学习过程提供更精细的奖励。然后，我们要求 Teacher 在强化学习阶段纠正错误的推理。我们通过 SFT 对 RL 细调的模型进行稳定，以纠正重复单词和不完整句子等错误。我们对多模型数据集 ScienceQA 和 A-OKVQA 进行实验，以证明我们提议的有效性。ARES 合理推理与 GPT-4o 进行评估时的基准模型相比，获胜率约为 70%。此外，我们观察到改进的合理推理导致多模态数据集的推理答案准确性平均提高了 2.5%。

Jun, 2024

优化大型语言模型中的逻辑推理以促进法律应用

通过强化学习与逻辑反馈，加强语言模型在逻辑推理方面的能力，为处理复杂法律推理任务的大型语言模型的发展提供新的研究途径，并承认了语言与逻辑之间的基本联系。

Nov, 2023

知识增强大型语言模型的原则框架

这篇论文介绍了一个严格设计的框架，用于创建能够有效锚定知识并采用闭环推理过程的大型语言模型，以提升其进行深入分析的能力，同时解剖了该框架的组成部分对模型性能的贡献，从而为改进推理能力提供了理论保证。

Nov, 2023