蒙特卡罗规划的忠实问答

ACLMay, 2023

Faithful Question Answering with Monte-Carlo Planning

Ruixin Hong, Hongming Zhang, Hong Zhao, Dong Yu, Changshui Zhang

TL;DR本论文提出 FAithful question answering with MontE-carlo planning （FAME）方法，以结构化蕴含树方式展示中间推理步骤，包含多个基础任务模块并通过蒙特卡罗规划算法作为控制器提出行动，旨在回答问题并与大型语言模型相比，使用更小的模型大小实现了最先进的性能。

Abstract

Although large language models demonstrate remarkable question-answering performances, revealing the intermediate reasoning steps that the models faithfully follow remains challenging. In this paper, we propose FAME (FAithful →

language models question answering entailment tree monte-carlo planning model size

发现论文，激发创造

利用大型语言模型进行忠实推理

通过串联使用微调语言模型进行多步推理的方法，可以解决大型语言模型的单次调用限制，提高多步问题的性能和可解释性。该方法在多步逻辑推导和科学问题回答方面表现优于基线模型，并生成可由用户检查的有效推理过程。

Aug, 2022

行动连锁：通过大语言模型进行忠实的多模态问答

我们提出了一种多模态且具有检索增强的问题回答的行动链框架，通过系统提示和预设计的行动将复杂问题分解为推理链。我们使用三种可调整领域的 “即插即用” 操作来从异构来源中检索实时信息，并提出了一个多参考信任分数（MRFS）来验证和解决答案中的冲突。通过公共基准测试和 Web3 案例研究，我们验证了 CoA 相对于其他方法的能力。

Mar, 2024

让推理有意义：衡量和提升思考推理的可靠性

通过对十二个大型语言模型进行因果中介分析，本文发现大型语言模型在生成最终答案时并不可靠地使用中间推理步骤。为了解决这个问题，我们引入了 FRODO 框架，该框架通过使用隐式因果奖励函数生成正确的推理步骤，以及通过因果和对抗优化目标忠实地进行推理。实验证明，FRODO 显著优于其他四个基线方法，提高了推理语言模型的鲁棒性和泛化能力，在分布外测试集上表现更好。最后，我们发现 FRODO 的解释对最终答案的预测更加可靠。

Feb, 2024

利用计划评估进行最远推理：检索增强的大型语言模型稳定推理路径

本文提出了一种针对多跳问题回答的新方法，称为 FuRePA，其中包括改进框架（Furthest Reasoning）和附加模块（Plan Assessor）。通过屏蔽之前的推理路径和生成的查询，鼓励 LLM 在每次迭代中从头开始生成思路，从而打破先前误导思想和查询的束缚。通过对三个公认的多跳问题回答数据集的评估，我们的方法在大多数指标上优于现有技术（回答准确率提高了 10%-12%）。

Sep, 2023

阅读前先生成！使用机器阅读实现忠实的长篇问答

我们提出了一种新的端到端框架，用于解决长篇问答的生成问题，重点是如何生成更加真实准确的答案。通过增加细粒度的相关信息来强化生成模型，实验结果表明我们的方法比强基线模型在自动和人工评估指标上表现更好，并且能够生成流畅，相关且更加真实准确的答案。

Mar, 2022

回答带有虚假前提的问题

本文发现预训练语言模型内部已经拥有反驳谣言的所需知识，只需要激发其反驳能力，通过 fine-tuning 可以在少量示例（例如 256 个）的情况下区分虚假前提问题，并生成合理的反驳解释。

Jul, 2023

对话式语言模型的推理即世界模型的规划

本文介绍了基于 Monte Carlo 搜索算法的新型大语言模型推理框架 RAP，利用其上的世界模型进行计划生成和复杂推理。从多个任务测试中，RAP 在效率和准确率上都超过了 Chain-of-Thought 等现有方案。

May, 2023

FaiRR: 基于自然语言的忠实且强健的演绎推理

本研究通过定义三种模块化组件来构建信任和鲁棒性推理器，包括规则选择、事实选择和知识组合。我们提出的 FaiRR 快于现有推理数据集上的先前作品，并且对新型语言扰动具有鲁棒性。此外，与黑盒生成模型不同，FaiRR 的错误更易于解释，这是由于它采用的是模块化方法。

Mar, 2022

无需训练仍可受益。运用能量函数引导的蒙特卡罗树搜索释放大语言模型的数学推理能力

通过使用蒙特卡洛树搜索和轻能量函数，我们对经过微调的大型语言模型进行了改进，提高了数学推理的正确性和步骤，从而在不需要进一步微调或 RLHF 对齐的情况下，将经过微调的模型的一次通过率显著提高。

Sep, 2023

大型语言模型与具备心智理论的智能体相距多远？

人类可以从观察中推断他人的心理状态，然后从实用角度出发对这些推断进行干预。针对大型语言模型（LLMs）的新的评估范式 ——Thinking for Doing（T4D）要求模型将对他人心理状态的推断与社交情境中的行动联系起来。我们提出了一种零样本提示框架 ——Foresee and Reflect（FaR），该框架能够鼓励 LLMs 预测未来的挑战并合理推断潜在行动，从而提高 GPT-4 在 T4D 上的性能。

Oct, 2023