模型诊断有多可靠？

ACLMay, 2021

How Reliable are Model Diagnostics?

Vamsi Aribandi, Yi Tay, Donald Metzler

TL;DR本文探究了针对预训练语言模型的三种诊断测试的可靠性，发现基于可能性和表示的模型诊断没有先前假定的可靠性，并根据实证结果给出了建议。

Abstract

In the pursuit of a deeper understanding of a model's behaviour, there is recent impetus for developing suites of probes aimed at diagnosing models beyond simple metrics like accuracy or BLEU. This paper takes a step back and asks an important and timely question: how reliable are these diagn

diagnostics pre-trained language models likelihood-based representation-based reliability

发现论文，激发创造

提升生物医学 NLI 模型的健壮性：临床试验的探测方法

大型语言模型在医学领域中的应用是分析和调查临床试验的任务，本研究使用记忆探测方法研究在临床试验上训练的 Sci-five 模型，通过训练任务特定的探测器，调整模型以提高准确性，并发现探测器的大小对调整流程产生影响。

Feb, 2024

关于探测的数据需求

本研究探索寻找一种数量化方法，以估算合理的探测数据集大小，旨在构建一个系统性的诊断神经自然语言处理 (NLP) 模型探测数据集的框架。通过几个案例研究，我们验证了我们的估算具有足够的统计功效。

Feb, 2022

预训练语言模型是否可疑？从因果视角理解隐形风险

本文探讨了基于问题提示的探测方法可能存在的偏见、不一致性和不可靠性，强调了通过因果干预来消除偏差的必要性，并提出了更好的数据集设计、探测框架和更可靠的预训练语言模型评估标准。

Mar, 2022

估算和提高语言模型的强健性的方法

通过研究大型语言模型的泛化能力问题以及多种提高其分布韧性的方法，本文提出了未来改进大型语言模型鲁棒性的研究方向。

Jun, 2022

利用探测预测微调性能

本研究探讨了使用轻量 Probing 方法去解释 NLP 模型内在机制的方法，通过对三项探测测试的准确性精确预测了模型的调优表现，为 NLP 模型的发展提供了可能。

Oct, 2022

为模型解释调试测试

研究了后续模型解释对于诊断模型错误的有效性，通过将错误按来源分类为数据、模型和测试时污染性错误，评估了几种解释方法对查找虚假相关性、误标记训练实例、诊断非初始化模型、检测测试时污染输入等错误的能力，发现这些方法能够发现虚假背景错误，但不能明确识别误标记的训练实例，同时某些方法对深度网络高层参数缺乏鲁棒性，不能有效诊断模型污染性错误。人类主体研究表明，人们未能使用归因来识别有缺陷的模型，而是主要依赖于模型预测。这些结果为研究人员和从业者在使用解释作为模型调试工具时提供了指导。

Nov, 2020

利用诊断分类器研究和改进语言模型跟踪一致性信息的机制

通过使用诊断分类器来预测内部层状态，我们可以了解神经语言模型如何跟踪主语和动词之间的数的一致性，并发现诊断分类器在提高神经语言模型性能方面的独特作用。

Aug, 2018

重新思考对预训练语言模型机制的有效度量构建

提出了一种通过拓扑探针度量预训练语言模型内部关系的方法，并在 BERT-large 上进行实验。基于实验结果，提出了关于 BERT-like 预训练语言模型工作机制的假设，并提出了通过拓扑探针提高特定子模块微调性能的策略。

Oct, 2023

自然语言理解中的去偏方法使得偏见更容易被接受

通过提出一种基于探究的框架，研究了自然语言理解中的偏见修正方法。结果表明，推迟偏见的方法会导致更多的偏见被编码到模型的内部表示中。

Sep, 2021

我的表征是否捕获了 X？探究可能性

该论文介绍了一种名为 Probe-Ably 的可扩展探测框架，该框架自动化应用不同的探测方法，以实现可靠探测神经模型中的中间特征。

Apr, 2021