打破，扰动，建立：通过问题分解自动扰动推理路径

ACLJul, 2021

打破，扰动，建立：通过问题分解自动扰动推理路径

Break, Perturb, Build: Automatic Perturbation of Reasoning Paths Through Question Decomposition

Mor Geva, Tomer Wolfson, Jonathan Berant

TL;DR本研究提出了一种名为 BPB 的自动推理定向扰动（AROP）框架，用于针对问题 - 答案对进行符号扰动，并生成高质量的问题 - 答案对，同时构建了三个阅读理解基准测试的评估集，从而向传统的依赖于人工注释的基准测试构建提出挑战。

Abstract

Recent efforts to create challenge benchmarks that test the abilities of natural language understanding models have largely depended on human annotations. In this work, we introduce the "Break, Perturb, Build" (BPB) framework for automatic reasoning-oriented →

natural language understanding question-answer pairs reading comprehension evaluation sets perturbation

发现论文，激发创造

问答理解基准测试

本研究提出了问题分解意义表示（QDMR）来解决自然语言问题分解步骤的计算问题，并通过众包管道进行了标注。利用 QDMR 改进了 HotpotQA 数据集的开放领域问题回答，并将其转换成伪 SQL 语言，在语义分析应用中减轻注释难度。通过 Break 训练序列到序列模型，并表明其性能优于几种自然基线的算法。

Jan, 2020

自然扰动使问答更具鲁棒性

本文提出一种用人工产生的自然扰动而不是机器规则扰动，通过极小化现有数据集的扰动来使得机器学习模型对小的输入改变不敏感。在 BoolQ 数据集上的实验表明，使用自然扰动能够提高模型的鲁棒性和泛化能力，同时保持原有的高性能。

Apr, 2020

RUPBench：基于干扰的推理鲁棒性评估大型语言模型的基准测试

通过对大型语言模型（LLMs）进行系统的鲁棒性评估，本研究提供了关于 LLMs 对多样化和噪声输入的处理能力方面的进一步改进的见解。

Jun, 2024

通过生成困难背景教学多步骤 QA 的广泛推理技能

利用自然语言问句的分解来指导模型学习不同宽度的推理，在构建约 900 种不同推理模式数据的同时提高了典型语言模型在 4 个多步问题问答数据集上的 F1 表现，具有更高的鲁棒性，使得在两个对比数据集上 F1 点数提高了 5-8 个点。

May, 2022

通过自我评估引导解码的分解增强推理

该研究提出了一种有效的提示方法，通过随机波束搜索融合自我评估指导，可以平衡生成链的质量 - 多样性权衡，并在少次学习的情况下，分别在 GSM8K、AQUA 和 StrategyQA 基准测试中比相应的 Codex-backboned 基线高出 6.34％、9.56％和 5.46％的准确度，同时通过细粒度推理又找到并解决了逻辑失误的问题，提高了一致性和鲁棒性。

May, 2023

AutoPRM：通过可控的问题分解自动化多步推理的过程监督

本研究提出了一种自监督框架 AutoPRM，通过将复杂问题分解为可管理的子问题，并应用强化学习迭代地改进子问题的求解器，从而显著提高了数学和常识推理任务的性能。

Feb, 2024

可解释的证明生成：通过迭代反向推理实现

本文提出 IBR 模型，是一个迭代反向推理模型，用于解决基于规则的问答证明生成任务。IBR 通过迭代反向预测证明路径的节点和边缘，增强了推理过程的可解释性，同时利用节点和历史路径的详细表示进行推理，提高了推理的效率和准确性。实验结果表明，与强基线模型相比，IBR 具有更好的领域内性能和跨领域可迁移性。

May, 2022

问题分解提高模型生成推理的可信度

通过将问题分解为子问题，强迫模型在不同的上下文中回答简单的子问题，可以显著提高模型生成推理的可靠性，并在一定程度上提升效能，从而有望验证 LLM 行为的正确性和安全性。

Jul, 2023

大型语言模型的高级推理基准

大型语言模型在各种定量推理和知识基准测试中表现出色。然而，尽管尚未达到这些领域的专家水平，但许多这些基准测试由于 LLMs 的得分越来越高而失去了效用。我们引入了 ARB，这是一个由多个领域中的高级推理问题组成的新型基准测试。ARB 比以前的基准测试更具挑战性，其中包含数学、物理、生物、化学和法律领域的问题。作为 ARB 的一个子集，我们引入了一组具有挑战性的数学和物理问题，需要高级符号推理和领域知识。我们评估了最近的模型，如 GPT-4 和 Claude 在 ARB 上的表现，并证明现有模型在较高难度任务上的得分远低于 50％。为了改进自动和辅助评估能力，我们引入了一种基于评分表的评估方法，允许 GPT-4 评分自己的中间推理步骤。此外，我们对 ARB 的符号子集进行了人工评估，发现注释者和 GPT-4 评分之间存在有希望的一致性。

Jul, 2023

一个问题分解单元就足够了吗？

研究者们探讨了一种新的方法通过人在内的 NLP 研究，在不建立新模型的情况下，通过将数据分解为模型更易于回答的一系列简单问题来提高模型性能，证明了这种方法的可行性，可以作为建立大型语言模型的替代方案。

May, 2022