带判别器引导的语言模型多步推理

May, 2023

带判别器引导的语言模型多步推理

Discriminator-Guided Multi-step Reasoning with Language Models

Muhammad Khalifa, Lajanugen Logeswaran, Moontae Lee, Honglak Lee, Lu Wang

TL;DR该研究提出了一种基于 stepwise decoding 方法的 Guiding Multi-step ReAsoning with a CorrectnEss Discriminator (GRACE) ，它使用判别模型来调整 LM 的解码策略，从而提高多步推理的准确性。与传统解码策略相比，GRACE 在四个流行的数学推理基准测试中均表现出显著的改进。

Abstract

In the context of multi-step reasoning, language models (LMs) probabilities are often miscalibrated -- solutions with high probabilities are not always correct. Therefore, greedy decoding, which is the standard d

multi-step reasoning language models guiding multi-step reasoning with a correctness discriminator decoding strategies math reasoning benchmarks

发现论文，激发创造

利用大型语言模型进行忠实推理

通过串联使用微调语言模型进行多步推理的方法，可以解决大型语言模型的单次调用限制，提高多步问题的性能和可解释性。该方法在多步逻辑推导和科学问题回答方面表现优于基线模型，并生成可由用户检查的有效推理过程。

Aug, 2022

探索语言模型的多步推理能力的机械解释

在这篇论文中，我们通过探索一种机械化方法来回答语言模型在多步推理任务中是通过抄袭预训练语料库中记忆的答案还是通过多步推理机制来完成这些任务的疑问。我们引入了一种新的探测方法（称为机械化探测器），从模型的注意力模式中恢复推理树，用于分析两个语言模型：GPT-2 在一个合成任务（第 k 个最小元素）上以及 LLaMA 在两个简单的基于语言的推理任务（ProofWriter 和 AI2 推理挑战）上。我们展示了机械化探测器能够在大多数示例中从模型的注意力中检测到推理树的信息，这表明在许多情况下语言模型确实在其架构中经历了一个多步推理的过程。

Oct, 2023

第一步优势：多步推理中开始正确的重要性

大型语言模型可以通过为其预测生成理由来解决复杂的推理任务。通过将这些功能融入到较小、紧凑的模型中，可以促进为特定任务量身定制的专门、经济高效的模型的创建。然而，较小的模型在复杂的推理任务中常常面临挑战，并且通常会偏离正确的推理路径。我们发现，只有在恰当的时机介入，大型语言模型才能指导较小的模型并将它们带回正确的推理路径。我们发现，较小的模型在推理方面主要因为难以启动过程而失败，引导它们朝正确的方向发展可以使性能提高 100% 以上。我们探索不同的模型大小并评估提供指导以改善较小模型推理能力的益处。

Nov, 2023

预防语言模型隐藏推理过程

大型语言模型（LLMs）利用中间推理步骤来解决复杂问题，其中编码推理可能导致模型生成了人类无法理解的文本。我们说明了语言模型可以通过编码推理来提高性能，并提出了一种评估对抗编码推理的防御方法。在合适的条件下，我们的重组技术成功地防止模型每 KB 文本超过 3 位信息的编码。

Oct, 2023

Q*: 改进 LLMs 的多步推理与计划

通过引入 Q* 框架，我们可以缓解大型语言模型在多步推理时产生的错误、幻觉和不一致陈述的问题。Q* 是一个通用、多功能和灵活的框架，通过学习一个插拔式的 Q-value 模型作为启发式函数，有效地指导大型语言模型选择最有前途的下一步，避免了对每个任务进行大型语言模型微调所带来的计算开销和性能退化的潜在风险。在 GSM8K、MATH 和 MBPP 三个任务上的大量实验证明了我们方法的优越性。

Jun, 2024

通过自我评估引导解码的分解增强推理

该研究提出了一种有效的提示方法，通过随机波束搜索融合自我评估指导，可以平衡生成链的质量 - 多样性权衡，并在少次学习的情况下，分别在 GSM8K、AQUA 和 StrategyQA 基准测试中比相应的 Codex-backboned 基线高出 6.34％、9.56％和 5.46％的准确度，同时通过细粒度推理又找到并解决了逻辑失误的问题，提高了一致性和鲁棒性。

May, 2023

关于提高语言模型推理能力的进展

本文介绍了一种名为 DiVeRSe 的方法，通过增加提示多样性和引入验证器来进一步提高大型语言模型的推理能力，成功地在八个基准测试中的六个上达到了最新的最先进性能，其中包括 GSM8K。

Jun, 2022

让推理有意义：衡量和提升思考推理的可靠性

通过对十二个大型语言模型进行因果中介分析，本文发现大型语言模型在生成最终答案时并不可靠地使用中间推理步骤。为了解决这个问题，我们引入了 FRODO 框架，该框架通过使用隐式因果奖励函数生成正确的推理步骤，以及通过因果和对抗优化目标忠实地进行推理。实验证明，FRODO 显著优于其他四个基线方法，提高了推理语言模型的鲁棒性和泛化能力，在分布外测试集上表现更好。最后，我们发现 FRODO 的解释对最终答案的预测更加可靠。

Feb, 2024

基于评论引导的控制文本生成解码

本文介绍了一种新型的批判性解码方法来实现语言生成的控制，在控制主题、情感和排毒方面，表现得比以前的方法更好，并且在零 - shot 情况下表现出卓越的泛化能力。

Dec, 2022

蒸馏对比解码：通过对比解码和蒸馏提高 LLMs 的推理能力

通过使用 Distillation Contrastive Decoding（DCD）方法，我们成功提升了大型语言模型（LLM）在推理过程中的推理能力，该方法结合了 Contrastive Chain-of-thought Prompting 和先进的蒸馏技术，包括 Dropout 和 Quantization，以解决 Contrastive Decoding（CD）的局限性，增强了模型性能。

Feb, 2024