基于前提导向数据增强的思维路径对比学习用于逻辑阅读理解

Sep, 2024

基于前提导向数据增强的思维路径对比学习用于逻辑阅读理解

Thought-Path Contrastive Learning via Premise-Oriented Data Augmentation for Logical Reading Comprehension

Chenxu Wang, Ping Jian, Zhen Yang

TL;DR本研究解决了逻辑阅读理解中关于数据增强方法局限性的问题，提出了前提导向数据增强（PODA）框架。该框架不仅生成包括正确和错误选项分析的链式思考推理，还能构建多样化的反事实上下文，显著提升了逻辑推理能力和模型的表现。

Abstract

Logical Reading Comprehension is a challenging task that entails grasping the underlying semantics of text and applying reasoning to deduce the correct answer. Prior researches have primarily focused on enhancing logical reasoning capabilities through →

发现论文，激发创造

阅读理解中多轮推理策略的经验分析

通过使用最先进的RC模型，我们对单回合和多回合推理在SQuAD和MS MARCO数据集上的表现进行了实证研究，发现多回合推理优于单回合推理，启用灵活的回合次数通常优于固定的多回合策略，并且特别有助于具有冗长描述性答案的问题。

Nov, 2017

利用显式路径进行多跳阅读理解

本研究提出了一种基于路径的推理方法，用于多跳阅读理解任务，该方法结合了多个段落的事实来回答问题，并以PathNet模型为例，使用实体对表示方法从文本中提取隐含关系并编码路径。我们展示了该方法在多跳Wikihop数据集上的优异表现，并且可以推广到OpenBookQA数据集，达到最先进的性能水平。

Nov, 2018

探索、提出和组合：一种可解释的多阶段阅读理解模型

提出了一个名为Explore-Propose-Assemble reader (EPAr)的可解释的3模块系统，用于多跳阅读理解，通过迭代选择相关文档、提出答案和提取关键句子等步骤，有效地实现了人类读者对多个长文档进行粗到细的理解行为。在WikiHop和MedHop等数据集上进行实验，与基线和现有模型相比，该模型取得了明显的验证结果和竞争优势。

Jun, 2019

R4C: 评估RC系统以获得正确答案的基准

该研究介绍了一种新的阅读理解测试方法R4C，其通过要求RC系统能够给出不仅是答案还包括对答案进行解释的推导，解决了当前数据集中的注释偏差和其他偏差可以影响数据集的问题。研究人员使用可靠的众包框架对RC数据集进行批量注释，创建并公开了R4C数据集，该数据集包含4.6k个问题，每个问题有3个参考推导（即13.8k个推导）。实验证明，使用多个参考推导的自动评估指标是可靠的，并且R4C可以评估不同于现有基准测试的技能。

Oct, 2019

MERIt: 基于元路径引导的对比学习用于逻辑推理

通过MEta-path引导对比学习方法为文本逻辑推理提供自监督的预训练，在自然语言理解中解决语料库稀疏性导致的过度拟合和泛化问题。

Mar, 2022

通过链接话语单元和关键词建立层次推理链模型进行阅读理解

本研究提出了一种基于全面图网络的逻辑推理方法，在上下文和单词层面处理上下文，通过层次交互机制建模节点级关系和类型级关系，以提高阅读理解系统的解释能力和理解复杂逻辑关系的能力。

Jun, 2023

通过规划进行推理的消除：引导LLMs的非线性思维的新框架

提出了一种新的提示方法——Inferential Exclusion Prompting（IEP），通过排除和推理的原则引导大型语言模型（LLMs）进行非线性思考。IEP通过前向规划和后向排除的过程更好地模拟人类的复杂思维过程，并与其他基于Chain-of-Thought（CoT）的方法相比，能够在各种任务中持续表现出色。此外，将IEP和CoT结合起来可以进一步提高LLMs在某些任务上的性能，突出了混合逻辑流程所必要的。此论文还介绍了Mental-Ability Reasoning Benchmark（MARB）作为评估人类逻辑推理能力的综合特征的新方法。

Oct, 2023

逻辑阅读理解中临时推理理解的评估

为了准确评估语言模型在逻辑阅读理解方面的能力，我们提供了一个用于测试关键推理理解的数据集。通过从现有的多项选择逻辑阅读理解数据集中选取问题，我们众包了解释选择或排除答案选项的理由，结果得到了与943个主要问题相关联的3003个多项选择子问题。对我们的数据集进行的实验表明，最近的大型语言模型（如InstructGPT）在回答多项选择子问题时面临困难，即使它们能够正确回答主要问题。我们发现，该模型在回答针对主要问题的错误选项而编写的子问题时表现特别糟糕，这意味着该模型对解释为什么应该排除错误选项的能力有限。这些结果表明，我们的数据集鼓励进一步研究语言模型的关键推理能力，重点关注相关的备选项排除过程。

Nov, 2023

MalAlgoQA：评估反事实推理能力的教育方法

该论文介绍了MalAlgoQA，这是一个用于评估大型语言模型（LLMs）通过教育方法的反事实推理能力的新型数据集。该数据集包含数学和阅读理解问题，每个问题都附有四个答案选项及其对应的解释。我们关注不正确答案解释，称为“malgorithms”，强调导致错误答案的错误推理步骤，并提供有关错误思维过程的有价值的见解。我们还提出了Malgorithm识别任务，用于根据给定的错误答案选择来评估LLMs识别相应malgorithm的能力。为了评估模型性能，我们引入了两个指标：正确答案解释的算法识别准确率（AIA）和错误答案解释的malgorithm识别准确率（MIA）。该任务具有挑战性，因为最先进的LLMs在MIA方面表现出较大的下降。此外，我们发现，“思维链提示”技术不仅无法始终提高MIA，而且与简单提示相比也可能导致性能不佳。这些发现在更注重教育视角的更具认知启发的LLMs的开发中具有重要意义，以提高其反事实推理能力，特别是在理解和纠正学生错误观念方面。

Jul, 2024

去混淆的因果感知参数高效微调：改善大型语言模型的解题能力

本研究针对大型语言模型在推理任务中的不足进行了深入探讨，尤其是在数学和物理问题的解决上。我们提出了去混淆因果适应（DCA）方法，通过构建因果框架来增强模型的推理能力，并在多个基准测试中显示出优于传统微调方法的效果，展示了其在提高大型语言模型的准确性和可靠性方面的潜力。

Sep, 2024