F1 不够用：面向用户中心的可解释问答模型与评估

EMNLPOct, 2020

F1 不够用：面向用户中心的可解释问答模型与评估

F1 is Not Enough! Models and Evaluation Towards User-Centered Explainable Question Answering

Hendrik Schuff, Heike Adel, Ngoc Thang Vu

TL;DR当前可解释的问答系统存在回答与解释耦合度不够的问题，本文提出一种层次模型及新的规范化项来加强回答 - 解释的耦合，并提供两种评估指标来量化耦合，实验结果显示该方法可以提高用户的使用体验和判断系统正确性的能力。

Abstract

explainable question answering systems predict an answer together with an explanation showing why the answer has been selected. The goal is to enable users to assess the correctness of the system and understand its reasoning process. However, we show that current models and evaluation

explainable question answering coupling of answer and explanation hierarchical model regularization term user experience

发现论文，激发创造

QA2Explanation: 为基于知识图谱的问答系统生成和评估解释

本文提出了一个用于自动生成解释的方法来改善基于管道的问答系统，在特定领域（如生物医学领域）中应用 QA 系统的难点在于其 “黑匣子” 性质，该方法是通过考虑三类（成功、无回答和错误回答）用于注释所涉及 QA 组件的输出，并选择一个模板解释来衡量其有效性。

Oct, 2020

评估开放式问答系统评估

本研究针对认知智能领域中的 Open Question Answering 任务进行评估，提出了 QA Evaluation 任务和相应的数据集，在考虑到自动评估方法的局限性的基础上，采用人工评估来更准确地衡量基于人工智能的答案的准确性和 F1 分数，并研究表现高度相关且更可靠的评估方法以及当前方法的缺陷，最终生成的数据集有望促进更有效的自动评估工具的发展。

May, 2023

模型准确性和解释透明度如何影响用户信任

研究表明，在机器学习中，准确度比可解释性更重要，添加解释可能会损害用户信任，同时高度真实的解释不能欺骗用户的信任，用户的信任感与其实际表现不符。

Jul, 2019

解释质量评估中的挑战

本文探讨了解释质量的评估以及当前主流的代理分数评价方法的问题，得出代理分数与人类评分相关性较差，且使用频率越高表达能力越弱的结论，最终提出指导方针以实现有意义的评价和推动系统的发展。

Oct, 2022

模型分析与评估：歧义问题回答

研究 Question Answering 模型回答模糊问题的挑战，探讨模型 / 数据扩展和自动评估指标对模型质量的影响，并研究模型答案的证据根据，旨在提供有关当前方法局限性的宝贵见解。

May, 2023

答案生成与摘要：基于证据抽取的多阶段问答多任务学习

该研究提出了一种基于 Query Focused Extractor (QFE) 模型的可解释的多跳问答系统，使用多任务学习并结合了问答模型进行证据点提取，实验结果表明该模型在 HotpotQA 和 FEVER 任务中达到了最佳证据提取效果。

May, 2019

使用 Transformers 的无监督问答评估

本研究探讨了基于 Transformer 的 QA 模型中问题、答案和上下文的隐藏表示，并通过观察回答表示中的一致性模式来自动评估预测出的答案跨度是否正确，其方法不需要任何标记数据且优于强启发式基线，在两个数据集和七个领域上均能够达到较高准确率。

Oct, 2020

知识驱动对话中的问题生成：可解释性和评估

在知识驱动的对话背景下，我们探讨问题生成的可解释性和评估。通过在规划为基础的摘要生成工作的启发下，我们提出了一个模型，该模型先顺序预测一个事实，然后再预测一个问题，与仅生成问题的标准模型相比，虽然推理要求更高，但我们的方法在相关性、事实性和代词化方面的详细无参照模型行为评估方面表现相当。

Apr, 2024

通过对话式解释探索 NLP 模型和数据集的 InterroLang

通过在 NLP 领域中使用具有自由文本理性化功能的对话系统，研究人员对 NLP 任务进行了改进，并通过评估模型性能和用户研究，证明了理性化和特征归因在解释模型行为方面的有效性。

Oct, 2023

HOP, UNION, GENERATE: 可解释的无需理由监督的多跳推理

该研究提出了一种基于概率的方法来训练可解释的多跳问答系统，该系统可以在无需基于理由的监督的情况下进行训练。该方法将理由明确建模为集合，能够在文档之间以及文档内部的句子之间进行交互和多跳推理，这种方法在选择理由方面比之前的方法更加准确。

May, 2023