如何使用被遮掩语言模型合成的反事实来避免解释文本分类器的决策的困扰？

ACLOct, 2021

如何使用被遮掩语言模型合成的反事实来避免解释文本分类器的决策的困扰？

Double Trouble: How to not explain a text classifier's decisions using counterfactuals synthesized by masked language models?

PDF

Thang M. Pham, Trung Bui, Long Mai, Anh Nguyen

TL;DR本文研究了属于权值归因方法的输入边缘化算法 (Input Marginalization) 和基于局部线性扫描 (LIME) 的可解释性方法，发现 LIME 方法在使用 BERT 模型进行样本生成后，比输入边缘化算法具有更高的鲁棒性和可靠性

Abstract

A principle behind dozens of attribution methods is to take the prediction difference between before-and-after an input feature (here, a token) is removed as its attribution. A popular input marginalization (IM)

attribution methods input marginalization bert deletion-based metrics lime

发现论文，激发创造

语言模型中事实性回忆机制的表征

利用头部归因方法控制模型行为，将模型表现局部化，并提供了一种概念验证方法，展示如何在运行时动态地控制模型行为。

Oct, 2023

利用反事实情况测量和改善对部分输入的专注力

数据集中的伪相关性对于 NLP 模型在未见数据上的泛化性造成了影响。我们提出了一种新的评估方法，Counterfactual Attentiveness Test (CAT)，通过使用反事实推理来检测模型的注视变化。 CAT 的结果显示，对这种相关性的依赖主要受数据影响，并且通过引入反事实推理可以改善模型的注视能力。

Nov, 2023

通过输入边际化解释自然语言处理模型

本研究提出了一种解决现有解释方法所引发的超出分布问题的方法，其通过将每个标记边缘化来解释情感分析和自然语言推理等 NLP 模型的预测结果。

Oct, 2020

揭示大规模视觉语言模型中的偏见

通过对不同的大型视觉 - 语言模型（LVLMs）生成的文本进行大规模研究，我们发现输入图像中所描绘的社会属性（如种族、性别和外貌特征），能够显著地影响生成文本的毒性和与能力相关的词汇。

Mar, 2024

用反事实推理发现大规模视觉 - 语言模型中的偏见

通过对现有的大规模视觉 - 语言模型进行大规模研究，我们发现社会属性，如种族、性别和形象特征，可以显著影响生成的有害内容、能力相关词汇、有害刻板印象和被描述个体的评分，同时也探讨了大规模视觉 - 语言模型和对应的语言模型之间的社会偏见关系和减缓偏见的推理策略。

May, 2024

SemEval-2020 任务 5 中的 BUT-FIT：使用深度预训练语言表示模型自动检测虚拟语气陈述

本论文介绍了 BUT-FIT 在 SemEval-2020 任务 5 中的提交，即对语言中的因果推理进行建模，包括检测逆事实是否存在，以及从文本中提取逆事实的前因后果部分。研究者们针对语言表示模型进行了实验，结果表明 RoBERTa 能够在两个子任务中表现出色。最终，BUT-FIT 在第二个子任务 “逆事实前因后果提取” 中获得了第一名，并在 “逆事实检测” 中排名第二。

Jul, 2020

通过隐式优化和 Shapley 引导搜索生成对抗样本

本文解决了生成对抗文本的问题，从而理解和调试分类器，通过优化潜在空间并利用语言模型生成候选修改来绕过离散性文本的优化难题，并使用 Shapley 值估计多个更改的组合效果来确保结果，结果显示潜在空间优化和使用 Shapley 值都显著提高了生成的反事实文本的成功率和质量。

Oct, 2021

通过输入干预对话式问答分析语言模型的语义忠实度

本研究考虑了三个 Transformer 模型 (BERT，RoBERTa 和 XLNet)，并调查它们在语义上的表现。通过删除或否定某些单词，我们发现这些模型在语义上的准确性下降，而我们提出的基于干预的训练方案可以显著提高这种准确度。但是，我们还发现这种训练并不能改善模型在逻辑否定，谓词 - 论元结构等方面的不足。此外，我们还测试了 InstructGPT 的效果，发现虽然它在谓词 - 论元结构任务上表现得很好，但对删除和否定干预响应不佳。

Dec, 2022

部分输入基线表明自然语言推理模型可以忽略上下文

我们研究了最先进的 NLI 模型是否能够覆盖部分输入基线所做出的默认推断，并引入一个由紊乱的前提组成的评估集来检查 RoBERTa 模型对编辑内容的敏感性。我们的结果表明，尽管训练数据集存在技术性问题，但 NLI 模型仍然能够学习到依赖于上下文的条件和推理能力。

May, 2022

使用 Transformer 进行可解释的口语欺骗检测

本文提出并评估了六种深度学习模型，包括 BERT（和 RoBERTa），MultiHead Attention，co-attentions 和 transformers，结果表明我们的基于 transformer 的模型可以提高自动化的欺骗检测性能（+2.11％的准确率），并显示与真实和欺骗陈述中 LIWC 特征使用相关的显着差异。

Oct, 2022