基于概念的解释用于检测被虐待语言分类器学习到的伪因果关系

Jul, 2023

基于概念的解释用于检测被虐待语言分类器学习到的伪因果关系

Concept-Based Explanations to Test for False Causal Relationships Learned by Abusive Language Classifiers

Isar Nejadgholi, Svetlana Kiritchenko, Kathleen C. Fraser, Esma Balkır

TL;DR本文研究了三种常见的英文辱骂语言分类器，关注负面情绪的本质，并介绍了基于概念的解释度量来评估概念对标签的影响，并比较分类器在概念和标签之间学习虚假全局充分性的程度。

Abstract

classifiers tend to learn a false causal relationship between an over-represented concept and a label, which can result in over-reliance on the concept and compromised classification accuracy. It is imperative to have methods in place that can compare different models and identify over

发现论文，激发创造

理解虐待：虐待语言检测子任务的分类

本文讨论了关于虐待性语言检测和分析的不同子任务之间的关系，并提出了一个能够捕捉它们之间相似性和差异性的类型学，强调了研究者可以采取的最佳方法来处理他们感兴趣的虐待性语言检测子任务。

May, 2017

情感和辱骂语言检测的联合模型

本文探讨了自然语言处理在网络通信中检测恶意行为的方法，并提出了一种以情感状态为特征的多任务学习模型，证明在检测恶意行为方面效果显著。

May, 2020

关于跨数据集通用性的在线滥用自动检测

通过无监督主题模型和人工主题关键词检查，我们发现Wikipedia Detox数据集中温和的例子偏向于平台特定主题，移除这些主题可以提高跨数据集泛化能力，同时不会降低领域内分类性能，为了建立一个有效的数据集设计，我们建议在手动标注类标签之前，应用廉价的无监督方法检查收集的数据并减少不具有泛化能力的内容。

Oct, 2020

滥用言论具有语境性，那么 NLP（自然语言处理）呢？语境在滥用言论注释和检测中的作用

本研究通过给出上下文，重新注释部分英文侮辱语言检测数据集，比较了基于上下文和不基于上下文两种数据集上三种分类算法的性能，发现基于上下文的分类更具挑战性，但也更类似于实际应用场景。

Mar, 2021

网络欺凌分类器对模型无关扰动敏感

本研究探讨了模型无关的敌对行为和数据增强对有毒内容分类的影响，发现模型不再仅仅依靠词汇线索，而是更易受攻击和影响，需要更多的数据增强以提高鲁棒性与准确性。

Jan, 2022

利用概念激活向量提高隐式辱骂语言检测的泛化能力

本研究展示了一些机器学习模型在检测内含性较高的新兴讽刺性辱骂语言方面具有不足，提出了一种用于量化训练模型对明示和暗示辞职性侮辱语言的敏感度的解读技术，基于该技术，引入了“语言明示度”度量标准，可用于富含有关内隐性滥用文本的训练数据的建议。

Apr, 2022

文本分类器的解释必要性和充分性：仇恨言论检测案例研究

本文提供了一种新的特征归因方法用于解释文本分类器，用于分析恶意言论检测；提供“必要性”和“充分性”两种互补的理论得分，计算这些值的透明方法通过生成输入文本的显式扰动，使重要性评分本身具有可解释性；我们使用这种方法解释了不同恶意言语检测模型对同一测试套件中策划示例的预测，并表明对于身份术语的不同必要性和充分性值对应于不同类型的误报错误，揭示了分类器对边缘化群体的偏见的来源。

May, 2022

丰富滥用语言检测的社区背景

研究表明，通过了解社区背景，会显著提高现有的反滥用语言检测模型的分类性能，减少误报率。

Jun, 2022

走向程序公正：揭示有毒语言分类器使用情感信息中的偏见

研究了毒性语言分类器的公正性，考虑了与身份术语之外的重要概念的交互作用，表明身份术语将其它输入特征的作用超越，所得知识可指导去偏见技术以确保训练集中重要概念的充分代表。

Oct, 2022

如何定义有害对数据标注的影响：解释注解者如何区分令人厌恶、冒犯和有毒评论

通过研究定义'伤害'的方式是否影响注释结果，我们发现研究者定义'令人讨厌'、'冒犯'和'有害'这些伤害概念时，注释员并不将它们看作同义词，且伤害定义的特征和注释员的个人特点解释了他们在使用这些术语上的差异，结果表明我们不应该将这些伤害概念在内容监控研究中互换使用，研究者应根据研究目标明确选择要分析的伤害概念，并在概念与现有有害内容检测算法识别的概念不同时提供界定结果的信息，同时鼓励算法提供者确保其工具能够适应特定上下文的内容检测目标（例如征求工具用户的反馈）。

Sep, 2023