逻辑阅读理解中临时推理理解的评估

EMNLPNov, 2023

逻辑阅读理解中临时推理理解的评估

Evaluating the Rationale Understanding of Critical Reasoning in Logical Reading Comprehension

Akira Kawabata, Saku Sugawara

TL;DR为了准确评估语言模型在逻辑阅读理解方面的能力，我们提供了一个用于测试关键推理理解的数据集。通过从现有的多项选择逻辑阅读理解数据集中选取问题，我们众包了解释选择或排除答案选项的理由，结果得到了与 943 个主要问题相关联的 3003 个多项选择子问题。对我们的数据集进行的实验表明，最近的大型语言模型（如 InstructGPT）在回答多项选择子问题时面临困难，即使它们能够正确回答主要问题。我们发现，该模型在回答针对主要问题的错误选项而编写的子问题时表现特别糟糕，这意味着该模型对解释为什么应该排除错误选项的能力有限。这些结果表明，我们的数据集鼓励进一步研究语言模型的关键推理能力，重点关注相关的备选项排除过程。

Abstract

To precisely evaluate a language model's capability for logical reading comprehension, we present a dataset for testing the understanding of the rationale behind →

language model logical reading comprehension dataset critical reasoning alternative elimination

发现论文，激发创造

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行 “推理” 吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

大规模语言模型对于超领域逻辑推理任务的系统评估

大型语言模型在逻辑推理任务中的泛化性和鲁棒性评估及改善的研究。

Oct, 2023

自然语言理解的离散推理模板

本文提出了一种基于单跨提取的阅读理解模型的推理模板方法，针对复杂问题分解成若干简单子问题进行处理，实现了对减法算术问题的回答并具有竞争力，同时可解释、需要少量监督。

Apr, 2021

LogiQA：面向机器阅读理解的逻辑推理挑战数据集

通过构建名为 LogiQA 的全面数据集，了解了人类逻辑推理能力方面的基本能力在机器阅读中如何得到充分研究。结果表明，最先进的神经模型远不及人类的水平。其数据集也可作为深度学习 NLP 环境下重新研究逻辑 AI 的基准。

Jul, 2020

MetaLogic：带有细粒度结构的逻辑推理解释

本研究提出了一个综合性基准来研究模型在复杂的现实场景中的逻辑推理能力。我们设计了细粒度的逻辑推理解释形式，并在实验中评估了当前最佳模型在这种新的解释形式上的表现，结果表明即使在巨型模型的帮助下，生成推理图仍然是一个具有挑战性的任务。

Oct, 2022

ReClor：需要逻辑推理的阅读理解数据集

本研究旨在引入一个新的、需要逻辑推理的阅读理解数据集（ReClor），以推动对文本更全面的推理。实证研究结果表明，针对存在偏见的数据点并将其分为简单和困难集合，可对模型的逻辑推理能力进行全面的评估，从而在提高模型性能的同时，推动领域内更多的研究。

Feb, 2020

重读改善语言模型的推理能力

通过重新阅读问题信息嵌入在提示中，我们提出了一种似乎简单但非常有效的提示策略，称为 “问题重新阅读”，该方法与认知增强的原理相一致，使得大型语言模型能够提取更深入的见解，识别复杂的模式，建立更细致的联系，从而增强其在各种任务中的推理能力。

Sep, 2023

在可读性水平控制下的自由文本论据生成

大型语言模型在不同可读性级别下进行自然语言解释任务，发现解释可以适应不同的指导，但请求的可读性经常与传统可读性评估指标不一致。该研究还发现，评估大型语言模型生成的解释时，其对于文本复杂度的评估呈现出与自然语言生成中观察到的类似偏好。最后，人类评估表明在不同可读性级别下的解释总体印象令人满意，其中高中级别的可读性最常见且受欢迎。

Jul, 2024

阅读理解问题为何难？

通过众包多选阅读理解问题，分析来自七个质量不同的来源的段落的属性如何影响问题难度及类型，发现段落的来源、长度和可读性等因素并不影响问题的难度，而逻辑推理更常常出现在针对技术文章的问题中。因此，在创建新的基准数据集时，选择多样性的段落可以确保问题类型的多样性，而段落的难度则不是最重要的。

Mar, 2022

GLoRE：评估大型语言模型的逻辑推理能力

该篇研究论文主要介绍了大型语言模型的逻辑推理能力评估，提出了一个名为 GLoRE 的评估基准，包含 12 个数据集，通过实验证明了 ChatGPT 和 GPT-4 在逻辑推理方面的强大能力，并提出了改进方法，发布了数据集和评估程序以促进未来的研究。

Oct, 2023