基于前提导向数据增强的思维路径对比学习用于逻辑阅读理解
通过使用最先进的RC模型,我们对单回合和多回合推理在SQuAD和MS MARCO数据集上的表现进行了实证研究,发现多回合推理优于单回合推理,启用灵活的回合次数通常优于固定的多回合策略,并且特别有助于具有冗长描述性答案的问题。
Nov, 2017
本研究提出了一种基于路径的推理方法,用于多跳阅读理解任务,该方法结合了多个段落的事实来回答问题,并以PathNet模型为例,使用实体对表示方法从文本中提取隐含关系并编码路径。我们展示了该方法在多跳Wikihop数据集上的优异表现,并且可以推广到OpenBookQA数据集,达到最先进的性能水平。
Nov, 2018
提出了一个名为Explore-Propose-Assemble reader (EPAr)的可解释的3模块系统,用于多跳阅读理解,通过迭代选择相关文档、提出答案和提取关键句子等步骤,有效地实现了人类读者对多个长文档进行粗到细的理解行为。在WikiHop和MedHop等数据集上进行实验,与基线和现有模型相比,该模型取得了明显的验证结果和竞争优势。
Jun, 2019
该研究介绍了一种新的阅读理解测试方法R4C,其通过要求RC系统能够给出不仅是答案还包括对答案进行解释的推导,解决了当前数据集中的注释偏差和其他偏差可以影响数据集的问题。研究人员使用可靠的众包框架对RC数据集进行批量注释,创建并公开了R4C数据集,该数据集包含4.6k个问题,每个问题有3个参考推导(即13.8k个推导)。实验证明,使用多个参考推导的自动评估指标是可靠的,并且R4C可以评估不同于现有基准测试的技能。
Oct, 2019
本研究提出了一种基于全面图网络的逻辑推理方法,在上下文和单词层面处理上下文,通过层次交互机制建模节点级关系和类型级关系,以提高阅读理解系统的解释能力和理解复杂逻辑关系的能力。
Jun, 2023
提出了一种新的提示方法——Inferential Exclusion Prompting(IEP),通过排除和推理的原则引导大型语言模型(LLMs)进行非线性思考。IEP通过前向规划和后向排除的过程更好地模拟人类的复杂思维过程,并与其他基于Chain-of-Thought(CoT)的方法相比,能够在各种任务中持续表现出色。此外,将IEP和CoT结合起来可以进一步提高LLMs在某些任务上的性能,突出了混合逻辑流程所必要的。此论文还介绍了Mental-Ability Reasoning Benchmark(MARB)作为评估人类逻辑推理能力的综合特征的新方法。
Oct, 2023
为了准确评估语言模型在逻辑阅读理解方面的能力,我们提供了一个用于测试关键推理理解的数据集。通过从现有的多项选择逻辑阅读理解数据集中选取问题,我们众包了解释选择或排除答案选项的理由,结果得到了与943个主要问题相关联的3003个多项选择子问题。对我们的数据集进行的实验表明,最近的大型语言模型(如InstructGPT)在回答多项选择子问题时面临困难,即使它们能够正确回答主要问题。我们发现,该模型在回答针对主要问题的错误选项而编写的子问题时表现特别糟糕,这意味着该模型对解释为什么应该排除错误选项的能力有限。这些结果表明,我们的数据集鼓励进一步研究语言模型的关键推理能力,重点关注相关的备选项排除过程。
Nov, 2023
该论文介绍了MalAlgoQA,这是一个用于评估大型语言模型(LLMs)通过教育方法的反事实推理能力的新型数据集。该数据集包含数学和阅读理解问题,每个问题都附有四个答案选项及其对应的解释。我们关注不正确答案解释,称为“malgorithms”,强调导致错误答案的错误推理步骤,并提供有关错误思维过程的有价值的见解。我们还提出了Malgorithm识别任务,用于根据给定的错误答案选择来评估LLMs识别相应malgorithm的能力。为了评估模型性能,我们引入了两个指标:正确答案解释的算法识别准确率(AIA)和错误答案解释的malgorithm识别准确率(MIA)。该任务具有挑战性,因为最先进的LLMs在MIA方面表现出较大的下降。此外,我们发现,“思维链提示”技术不仅无法始终提高MIA,而且与简单提示相比也可能导致性能不佳。这些发现在更注重教育视角的更具认知启发的LLMs的开发中具有重要意义,以提高其反事实推理能力,特别是在理解和纠正学生错误观念方面。
Jul, 2024
本研究针对大型语言模型在推理任务中的不足进行了深入探讨,尤其是在数学和物理问题的解决上。我们提出了去混淆因果适应(DCA)方法,通过构建因果框架来增强模型的推理能力,并在多个基准测试中显示出优于传统微调方法的效果,展示了其在提高大型语言模型的准确性和可靠性方面的潜力。
Sep, 2024