通过可解释的标记模式理解和减轻分类错误

Nov, 2023

通过可解释的标记模式理解和减轻分类错误

Understanding and Mitigating Classification Errors Through Interpretable Token Patterns

Michael A. Hedderich, Jonas Fischer, Dietrich Klakow, Jilles Vreeken

TL;DR我们提出了一种方法，通过发现那些区分正确和错误预测的标记模式来获得全局且可解释的描述，从而改善 NLP 分类器的性能。通过一系列实验证明，我们的方法在实践中表现良好，能够在大词汇量的不平衡数据上恢复出真实情况，并对 NLP 分类器的系统错误提供明确可行的见解。

Abstract

State-of-the-art NLP methods achieve human-like performance on many tasks, but make errors nevertheless. Characterizing these errors in easily interpretable terms gives insight into whether a classifier is prone

nlp classifiers errors interpretable descriptions minimum description length principle imbalanced data

发现论文，激发创造

基于标签描述模式的分类错误特征化方法

通过最小描述长度原则，我们提出了用于全局、可解释无歧义地描述分类器的模式的算法 Premise，可以有效地理解现代 NLP 分类器的系统性错误。

Oct, 2021

自动化错误分析：学习错误特征

本研究提出了一种自动学习可解释规则的元学习方法，应用在 NLP 系统上，用以了解和改善系统的错误表现，并取得了一定的性能提升。该方法通过对验证数据的错误案例进行元特征提取以及规则学习，成功地为 VilBERT 和 RoBERTa 建立了可解释规则，进一步提高了系统表现。

Jan, 2022

自然语言分类器的多分辨率解释和诊断工具

通过对 NLP 模型中的观察段或语义相关的词群进行分析，将解释性摘要方法更加灵活化，并通过分析不同段落的虚假或肯定例子，引入了 NLP 模型的根本原因分析方法。最后，通过对 Yelp 评论数据集的实验证明，利用单词和 / 或信息中的组 / 集群结构可以帮助解释 NLP 模型的决策，并可用于评估模型对性别，语法和单词含义的敏感性或偏差。

Mar, 2023

自然语言推理的灵活生成

本研究提出了 ParaPattern，该方法利用自动化流程从维基百科生成训练数据，并使用 BART 模型在无直接人类监督下从多样的自然语言输入中生成演绎推理，结果表明，ParaPattern 模型在无领域训练数据的情况下，表现优于基线系统。

Apr, 2021

探究自然语言推理中假设偏差的人工模式：HypoNLI

该文探究自然语言推理训练模型中的偏见问题，提取假设中的短语作为人工模式，展示它们对于特定标签的强烈指示作用，并探索缓解假设 - 唯一偏见的多种方法，包括下采样和对抗训练等。

Mar, 2020

SemEval-2022 任务 7 中 X-PuDu: 基于模式感知集成的替换词检测任务预训练模型用于识别合理的澄清

使用预先训练的替换词检测模型，结合模式感知集成方法，本文在 SemEval 2022 任务 7 中获得更佳的多分类和排序结果，实现了 68.90% 的准确率以及 0.8070 的斯皮尔曼等级相关分数，超过第二名的分数。

Nov, 2022

模型无关 NLP 可解释性中解释的粒度

通过对复杂的基于 BERT 的分类器使用基于段落的方法，本文改进了当前基于单词采样的黑盒 NLP 可解释性方法的局限性，大大提高了基准分类任务的解释保真度。

Dec, 2020

神经文本分类的分层解释

本文提出了一种新的 Hierarchical INTerpretable 神经文本分类器 Hint，它可以自动生成按标签关联的话题的模型预测解释，实验结果表明 Hint 方法在文本分类方面不仅与现有的最先进的文本分类器相当，而且生成的解释比其他可解释的神经文本分类器更符合模型预测，并且更易于被人类理解。

Feb, 2022

在标记分类数据中检测标签错误

本文研究了在标记分类数据集中寻找包含标签错误的句子的方法，并通过在 CoNLL-2003 的实体识别数据中进行的准召率评估，确立了一种简单有效的方法，能够用于该任务。

Oct, 2022

利用 Cloze 问题进行少样本文本分类和自然语言推理

本文介绍了一种半监督式的训练程序，称之为 PET，用来在低资源环境下学习某些 NLP 任务，并通过将输入示例转化为填空样式的短语来帮助语言模型理解给定任务

Jan, 2020