自动事实验证解释评估框架的探索

COLINGMar, 2024

自动事实验证解释评估框架的探索

Towards a Framework for Evaluating Explanations in Automated Fact Verification

Neema Kotonya, Francesca Toni

TL;DR深度神经模型在自然语言处理中变得越来越复杂且难以解释，因此解释它们的必要性也越来越大。本文提出了一个正式框架来支持对解释的系统评估，并提供了适用于不同结构的解释的示例，重点是自动事实验证任务。

Abstract

As deep neural models in NLP become more complex, and as a consequence opaque, the necessity to interpret them becomes greater. A burgeoning interest has emerged in rationalizing explanations to provide short and

deep neural models interpretation explanations formal framework automated fact verification

发现论文，激发创造

可解释的神经主张验证与理性解释

该论文介绍了一种基于经验分析的可解释性声明验证系统 ExClaim，通过像法律系统一样的理性化方法，提供说明模型决策过程的自然语言解释，有助于改进人工智能的可靠性和减少警惕性。

Jan, 2023

生成事实检查解释

本文针对自动事实检测的不足之处，提供了首个研究可利用可用的声明上下文生成自动化证明，并且演示了一项同时优化判断准确性预测和证明生成的多任务模型平均性能更好。

Apr, 2020

可解释 NLP 的合理化探索：一项调查

文章分析了 2007-2022 年间自然语言处理领域合理化 (Rationalization) 技术的发展现状和存在的问题，提出了一种新的可解释人工智能技术领域 Rational AI (RAI) 并讨论未来的研究方向和挑战。

Jan, 2023

利用解释作为潜在变量实现可解释的自然语言理解

本文提出了一种可解释自然语言理解的框架，使用一小部分人类注释的解释进行训练，并采用变分 EM 方法进行优化，同时提出了基于解释的自训练方法，在两个自然语言理解任务上进行实验，证明了该框架不仅可以在监督和半监督设置下进行有效的预测，还可以生成良好的自然语言解释。

Oct, 2020

REFER: 解释规范化的端到端关键抽取框架

我们提出了一种名为 REFER 的框架，利用可微分的 rationale extractor 来通过在训练过程中使用人工标注的重点提取训练任务模型和 rationale extractor，从而在忠实度、可信度和下游任务准确率方面显著提升性能。

Oct, 2023

基于神经机器翻译的理性化自然语言解释生成方法

介绍了 AI 合理化的方法，将自主系统行为的解释生成为人工行为的样式。使用神经机器翻译将自主智能体的内部状态 - 行为表示翻译成自然语言来描述合理化技术。通过 Frogger 游戏环境对该技术进行评估，训练一个自主游戏代理人，使其使用自然语言合理化其行动选择。结果显示，神经机器翻译能够准确生成描述代理行为的合理化方法，合理化比其他替代方法更能满足人类需要。

Feb, 2017

无锁多方面文本分类理性化

本文提出了一种多阶段培训方法，将自我监督对比损失纳入其中，并证明可以帮助生成更多语义多样的理性化解释，从而改善了啤酒评论数据集的实验结果，并解决了互锁问题。

May, 2022

情感分析解释的可信度和真实度评估

本文介绍了一种评估模型可解释性的方法，特别是在 NLP 领域中，提出了不同的评估指标和技巧来评估 SA 模型的可解释性。该方法被证明是可行的，同时发现了各种评估方法之间的差异，为设计更易于解释的 NLP 模型和评估其相对优势和鲁棒性提供了基础。

Oct, 2022

通过对话式解释探索 NLP 模型和数据集的 InterroLang

通过在 NLP 领域中使用具有自由文本理性化功能的对话系统，研究人员对 NLP 任务进行了改进，并通过评估模型性能和用户研究，证明了理性化和特征归因在解释模型行为方面的有效性。

Oct, 2023

正式证明作为结构化解释：关于可解释自然语言推理提出的若干任务

我们提出利用形式证明来推进几个可解释的自然语言推理（NLI）任务的方法，并利用可靠和高性能的基于逻辑的 NLI 系统生成形式证明。通过利用生成的形式证明中的深度信息，我们展示了如何使用它来定义具有结构化解释的 NLI 任务。所提出的任务可以根据解释的粒度难度进行排序，并且我们认为这些任务在许多方面都比现有的可解释 NLI 任务（或数据集）具有更少缺陷。

Nov, 2023