通过生成困难背景教学多步骤 QA 的广泛推理技能

EMNLPMay, 2022

通过生成困难背景教学多步骤 QA 的广泛推理技能

Teaching Broad Reasoning Skills for Multi-Step QA by Generating Hard Contexts

Harsh Trivedi, Niranjan Balasubramanian, Tushar Khot, Ashish Sabharwal

TL;DR利用自然语言问句的分解来指导模型学习不同宽度的推理，在构建约 900 种不同推理模式数据的同时提高了典型语言模型在 4 个多步问题问答数据集上的 F1 表现，具有更高的鲁棒性，使得在两个对比数据集上 F1 点数提高了 5-8 个点。

Abstract

Question-answering datasets require a broad set of reasoning skills. We show how to use question decompositions to teach language models these broad →

question answering reasoning skills language models pretraining teabreac

发现论文，激发创造

基于 Transformer 的描述逻辑上下文推理

通过使用描述逻辑知识库构建一个合成的自然语言问答数据集，本研究评估了基于 transformer 的模型在推理能力、合成语境和知识库相关的问题上的表现，并展示了模型在训练过程中对不同推理深度的泛化能力。

Nov, 2023

学会阐述：基于思维链的多模态推理用于科学问答

利用多模态多选问题和对应的讲座和解释构建科学问题回答 (ScienceQA) 基准测试，证明思路链在语言模型中的实用性，并通过在 GPT-3 上实现 18.96% 的 few-shot leap 提高上界；证明与人类类似，从解释中受益，可以借少训练数据实现相同的性能

Sep, 2022

从文本中回答具有不同推理步骤的开放领域问题

通过使用单个多任务 transformer 模型，我们设计了一个统一的系统，可以迭代地检索支持事实，重新排序它们，并从所有检索的文档中预测答案，从而回答各种需要不同数量的检索步骤的开放领域问题。我们构建了一个新的基准测试 BeerQA，并证明我们的模型在现有基准测试和这个新基准测试上都表现出有竞争力的表现。

Oct, 2020

利用理由生成和密集检索使用较小的语言模型回答未见过的问题

在提供足够解释性上下文的情况下，较小的语言模型在挑战性的问答任务中表现出强大的推理能力，而问题在训练中是未见过的。我们评估了两种进一步改进这一设置的方法，具体为使用理由排名模型对生成的合理和真实合理性进行评分并使用得分来从知识源中生成组合上下文，以及通过训练较小的推理模型来利用长文本序列中的相关信息。普遍发现，两种方法都有效，但 RATD 方法更容易应用并在我们关注的未见设置中产生最佳结果。

Aug, 2023

复杂问答中的问题分解中基于背景的能力转移

通过选择相关任务的可用数据源，将复杂问题分解为简单问题或生成逐步推理的依据，并为选择示例提出自动的不确定性感知的范例选择方法，ICAT 在不涉及任何模型训练的情况下表现出优于现有基于提示的解决方案的性能，展示了重复使用现有能力的好处。

Oct, 2023

从半结构化表格中生成样例，赋予语言模型推理技能

本文提出了一种基于预训练的方法，通过利用半结构化表格自动生成问题 - 段落对，以检验模型的推理能力，并且通过采样策略来提高模型训练的效率，在三个涉及推理的阅读理解数据集上证明了我们的模型相比于现有流行模型 T5 表现更优。

Jul, 2021

朝着全面答案更近一步：使用大型语言模型进行约束的多阶段问题分解

通过引入 “分解和查询”(D&Q) 框架，使得大规模语言模型在回答问题时能够避免幻觉，通过引导模型思考并利用外部知识，同时限制其思考范围在可靠信息内，从而有效减轻了幻觉的风险。实验证实了 D&Q 的有效性：在我们的 ChitChatQA 数据集上，D&Q 在 67％的情况下不输给 ChatGPT；在 HotPotQA 的仅问题设置下，D&Q 获得了 59.6％的 F1 得分。我们的代码可在此 https URL 找到。

Nov, 2023

具有上下文敏感声明性语法的扩展合成逻辑推理数据集

利用培训语言模型模仿定理证明器在过程生成的问题上进行逻辑推理仍然是自然语言处理的一个挑战。我们提出了一个更简单、更普遍的声明性框架，通过灵活的上下文敏感规则来绑定多种语言（特别是简化英语和 TPTP 定理证明语言），从而改进了逻辑推理的能力。我们使用语义约束在生成过程中，并对谓词进行仔细的英语表达，提高了逻辑推理能力，而不损害自然英语任务。我们使用相对较小的 DeBERTa-v3 模型在人类编写的逻辑数据集 FOLIO 上实现了最先进的准确性，在有或无外部求解器的情况下，精度超过了 GPT-4 12%。

Jun, 2024

利用大型语言模型进行忠实推理

通过串联使用微调语言模型进行多步推理的方法，可以解决大型语言模型的单次调用限制，提高多步问题的性能和可解释性。该方法在多步逻辑推导和科学问题回答方面表现优于基线模型，并生成可由用户检查的有效推理过程。

Aug, 2022

问题分解提高模型生成推理的可信度

通过将问题分解为子问题，强迫模型在不同的上下文中回答简单的子问题，可以显著提高模型生成推理的可靠性，并在一定程度上提升效能，从而有望验证 LLM 行为的正确性和安全性。

Jul, 2023