可衡量忠诚度的遮蔽语言模型

Oct, 2023

Faithfulness Measurable Masked Language Models

Andreas Madsen, Siva Reddy, Sarath Chandar

TL;DR提议基于掩码方法的一种内在的可靠度可衡量模型，该模型能够解决现有方法受限、计算昂贵且基于代理模型的问题，通过在设计上使掩码令牌成为数据分布内的方式，从而能够更有效地解释和说明 NLP 模型。

Abstract

A common approach to explain nlp models, is to use importance measures that express which tokens are important for a prediction. Unfortunately, such explanations are often wrong despite being persuasive. Therefor

nlp models importance measures token masking out-of-distribution issues fine-tuning method

发现论文，激发创造

对自然语言处理中可解释性度量的质疑：对谁忠诚？

该研究论文探讨了模型可解释性的常见方法，并指出了当前的可信度度量指标的局限性以及合理利用它们的关键考虑因素。

Aug, 2023

通过递归屏蔽所谓重要的令牌并重新训练来评估 NLP 中重要性度量的忠实度

本文提出了一种新的忠实度度量标准，即递归 ROAR，并对四种不同的重要性评估方法在八个数据集上进行了评估，发现其忠实度既与模型相关，也与任务相关。

Oct, 2021

融入归因重要性以提高忠实度度量

本文提出了一个简单而有效的软擦除标准，用于计算特征归因方法的充分性和全面性，实验结果表明，相较于硬擦除标准，该方法更好地反映了预测的重要部分，适用于自然语言处理中的各种任务与不同特征归因方法。

May, 2023

通过预测质量的代理方法测量掩盖语言模型中的社会偏见

通过使用迭代的蒙板实验测量变压器模型的预测质量，并评估多层语言模型对于劣势群体和优势群体的偏好，我们比较了两个基准数据集上的偏见估计结果，并发现在考虑的多层语言模型中具有相对较高的宗教和残疾偏见，而在一个数据集中相对较低的性别偏见。我们的测量方法在与人类注释者的一致性方面表现优于其他方法。我们通过评估在蒙版语言建模目标下重新训练多层语言模型后引入的社会偏见进行扩展，并发现我们提出的测量方法比其他方法更准确地估计了变压器之间具有偏见的句子的相对偏好。

Feb, 2024

略施推力，NLI 模型可鲁棒高效地预测忠实度

本文提出了一种利用数据增强和鲁棒推理过程将单纯的 NLI 模型用于预测语言模型忠实度的方法，应用于 TRUE 基准来说效果显著且计算代价较小。

May, 2023

掩蔽：预训练语言模型的有效替代方法

本文提出了一种有效的预训练语言模型利用方法，其中利用二进制选择性蒙版来代替微调的方法对预训练权重进行修改。对 Bert 和 Roberta 模型进行掩模和微调的广泛评估表明，我们的掩模方案在执行多个任务时具有可比性的性能，却具有更小的内存占用。通过本文内在评估，我们展示了由掩模语言模型计算的表征编码了解决下游任务所需的信息。分析损失景观，我们展示了掩蔽和微调能够生成几乎具有恒定测试准确度的线段相连的值，证实了掩蔽是微调的有效替代方法。

Apr, 2020

概率也很重要：大型语言模型中自由文本解释的忠实度的更为准确的评估指标

评估了 Llama2 系列的少样本提示 LLMs 生成的自由文本解释在三个 NLP 任务上的忠实性，并发现我们的度量考虑了 CT 遗漏的忠实性方面。

Apr, 2024

自然语言处理中的模型解释研究综述

本综述通过对忠实度的镜头，回顾了超过 110 种自然语言处理中的模型解释方法。我们考虑了忠实度的定义和评估，以及它对可解释性的重要性，并将现有方法分为五类。最后，我们总结了它们的共同优点和未解决的挑战，并反思了未来的研究方向。

Sep, 2022

利用大型语言模型从隐私保护掩码中恢复

使用大型语言模型，本研究探索了替代标记符的可行性，以保护用户隐私，分析了不同方法的实验结果，在下游语言建模任务中实现了与原始数据训练相媲美的性能。

Sep, 2023

揭开口罩 —— 评估蒙面语言模型中的社会偏见

本文提出了一种名为 AUL 并基于 attention weights 的 Alle Unmasked Likelihood 方法，用于检测 Masked Language Models 中的社会偏见，并发现以前的评估指标存在一系列问题，例如不考虑掩码的预测精度和测试集中的高频词掩码等问题。

Apr, 2021