使用人类解释监督模型关注力以强化自然语言推理

AAAIApr, 2021

使用人类解释监督模型关注力以强化自然语言推理

Supervising Model Attention with Human Explanations for Robust Natural Language Inference

Joe Stacey, Yonatan Belinkov, Marek Rei

TL;DR探究利用自然语言解释来监督模型的注意力权重，促使其更集中于解释中的关键词，从而提高模型性能，此方法的实验表明，这种改进可以适用于其它 NLI 数据集

Abstract

natural language inference (NLI) models are known to learn from biases and artefacts within their training data, impacting how well they generalise to other unseen datasets. Existing de-biasing approaches focus o

natural language inference de-biasing approaches model performance supervised models attention weights

发现论文，激发创造

知识增强注意力用于稳健的自然语言推理

本文提出一种利用简单变换将外部知识纳入注意机制来使 NLI 模型更加稳健的方法，将其应用于 Transformer 编码器和可分解模型中，结果表明该方法可以显著提高它们的稳健性。并且，在与 BERT 预训练相结合时，在对抗 SNLI 数据集上实现了人类水平的性能。

Aug, 2019

e-SNLI: 自然语言推理和自然语言解释

通过扩展自然语言推理数据集并引入人工提供的自然语言解释，我们实现了能够学习人类提供解释的机器学习模型，并将其用于提高模型性能和确定其可靠性的研究。

Dec, 2018

探究预训练和知识增强模型在自然语言推理中的应用的多个实验

该研究探索了无监督预训练和外部知识对自然语言推断任务的影响，以了解其如何帮助自然语言理解和解决 NLP 问题。

Apr, 2019

利用人类解释提高自然语言处理模型的研究调查

本研究介绍了学习基于人类解释的方法，并比较了使用不同解释类型和机制的不同方法，以帮助从业者选择特定用例的最佳方法。

Apr, 2022

显著性学习：教导模型关注重点

本论文旨在通过提供解释训练并确保模型的解释与真实解释的一致性，教会深度学习模型以恰当的原因做出正确的预测。实验结果表明，所提出的方法比传统训练模型更加可靠和有效。

Feb, 2019

使用随机调查实验测试基于显著性的可解释性在自然语言处理中的有效性

该研究通过一个基于随机抽样的实验，旨在检验基于显著性的事后可解释性方法在自然语言处理中的有效性，结果表明，人类往往会倾向于较少批判性地接受该类解释。

Nov, 2022

自然语言推理的标记级别解释生成

本文提出一种使用简单 LSTM 架构的零样本句子对标记来生成自然语言推理的 token 级解释的方法，并使用 SNLI 数据集进行了实验，与黑盒方法相比，白盒方法的匹配精度较低。

Apr, 2019

解释性人工智能在自然语言处理中的评估评价

本文在两种 NLP 任务和两种模型上，比较了五种最近的特征归属方法和两种注意力方法之间的等级相关性，并发现注意力方法与其他特征归属方法的关联度较低，建议停止使用等级相关性作为注意力解释的评估指标。

May, 2022

通过集成对抗训练避免自然语言推理中仅有假设的偏差

采用对抗性训练和敌对对抗方法的集成来降低自然语言推理中的偏见，这种方法比先前的去偏见努力表现更好，并且在推广到 12 个其他数据集时表现良好。

Apr, 2020

基于跨度级别预测的逻辑推理，实现可解释且鲁棒的自然语言推理模型

通过引入基于逻辑推理的框架，创造出基于逻辑规则的非常透明的模型决策，从而提高自然语言推理模型的可解释性和鲁棒性，并在减少数据的情况下更进一步地改善了模型性能和鲁棒性。

May, 2022