WikiWhy：回答和解释因果问题

Oct, 2022

WikiWhy: Answering and Explaining Cause-and-Effect Questions

Matthew Ho, Aditya Sharma, Justin Chang, Michael Saxon, Sharon Levy...

TL;DR通过构建一个包含九千多个问题 - 答案 - 理由三元组的 QA 数据集 “WikiWhy”，确定大型语言模型（LLMs）的推理能力，该数据集的每个理由都是一组支持语句，它们将问题和答案连接起来。 GPT-3 只能在结束的答案和解释条件下达到 38.7％的人类正确率，这为未来的改进留下了很大的空间。

Abstract

As large language models (LLMs) grow larger and more sophisticated, assessing their "reasoning" capabilities in natural language grows more challenging. Recent question answering (QA) benchmarks that attempt to a

large language models question answering reasoning capabilities qa dataset implicit commonsense knowledge

发现论文，激发创造

XplainLLM：理解 LLM 决策的 QA 解释数据集

大语言模型（LLMs）在自然语言理解任务中取得了显著进展，但是理解它们的决策过程仍然是一个巨大的挑战。本文通过引入一种新的解释数据集，将知识图谱（KGs）与问答（QA）任务以一种新颖的方式集成，为这一过程带来了一定的透明度。通过定量和定性评估，我们展示了我们的数据集提高了 LLMs 的上下文学习能力，并增强了它们的可解释性。我们的工作通过深入理解 LLMs 的决策过程，使其更加透明，从而对研究人员和从业人员更可靠，为可解释 AI 领域做出贡献。

Nov, 2023

TellMeWhy: 一个用于解答叙述中 Why 问题的数据集

介绍了 TellMeWhy 数据集，该数据集包含超过 30k 个关于短篇小说角色为何采取某些行动的问题和自由格式答案。通过对最先进模型的评估表明，它们在回答需要外部常识知识支持的问题上远远低于人类表现。

Jun, 2021

学习解释：通过改写回答为什么问题

本文旨在探讨人机交互中提供合理的解释是何等富有挑战性的，以及如何在生成自然语言解释时克服知识的多种抽象形式及推理。我们通过自动化新颖的数据收集方式构建了一种序列到序列的自然语言生成模型，并证明该方式相比其他方式能够更好地解释开放域现象。

Jun, 2019

合理的理由下的正确性：基于大型语言模型对可验证的常识知识图谱问题回答的研究

基于知识图谱问答的常识推理现有方法困扰于虚构问题，本研究提出基于正确原因的常识知识图谱问答方法（R3），通过可验证的推理过程，减少虚构和推理错误，展示其在问题回答、主张验证和偏好匹配等任务中的优越性。

Mar, 2024

从数据到常识推理：运用大型语言模型进行可解释人工智能

通过研究 LLMs 能力在推理和可解释性方面，我们证明 LLMs 在各种 QA 任务上能够合理推理，优于人类，并且 GPT-3.5 在决策解释方面表现出色。

Jul, 2024

学会阐述：基于思维链的多模态推理用于科学问答

利用多模态多选问题和对应的讲座和解释构建科学问题回答 (ScienceQA) 基准测试，证明思路链在语言模型中的实用性，并通过在 GPT-3 上实现 18.96% 的 few-shot leap 提高上界；证明与人类类似，从解释中受益，可以借少训练数据实现相同的性能

Sep, 2022

大语言模型的解释提升小推断者的性能

利用大型语言模型的自由文本解释来提高小型模型的推理能力，将有助于实现可解释的 AI，并可以在理解所做的预测的过程中生成高质量的解释。

Oct, 2022

学习解释：多跳问答中识别有效推理链的数据集和模型

本研究引入了三种不同类型的解释数据集，发现基于 BERT 分类器的方法能够显著提高解释质量，同时通过使用广义推理链，使得对某些扰动更具鲁棒性。

Oct, 2020

ReasonChainQA：基于文本的复杂问答解答，具有可解释的证明链

提出了一个新的具有说明和明确证据链的质量高的文本证据复杂问题回答基准 ReasonChainQA，包含具有不同深度的多跳问题，12 种推理类型和 78 种关系。

Oct, 2022

通过问答实现的基于 5W 方面的事实验证

本文提出了一个基于 5W 问答的可解释性事实验证框架，使用语义角色标记系统定位 5W 并生成 QA 对，我们获得了一个半自动生成的 FACTIFY-5WQA 数据集，并提出了一个基线 QA 系统自动定位从证据文件中的答案。最后，我们提出了一个强大的事实验证系统，可以对改写的声明进行自动验证。

May, 2023