D-XCB: 基于 Transformer 的无数据依赖公平准确的网络欺凌检测

Feb, 2024

D-XCB: 基于 Transformer 的无数据依赖公平准确的网络欺凌检测

D-XCB: Data-independent Debiasing for Fair and Accurate Transformer-based Cyberbullying Detection

Peiling Yi, Arkaitz Zubiaga

TL;DR衡量和减轻基于脱节性联想的粗俗词语和事件之间偏见关联带来的偏见，我们引入了 ID-XCB，这是第一种不依赖数据的去偏技术，结合了对抗训练、偏见约束和去偏微调方法，旨在减轻模型对诱导偏见词语的关注，而不影响整体模型性能。我们在两个常见的基于会话的网络欺凌数据集上探索了 ID-XCB，并进行了全面的消融和泛化研究。我们证明 ID-XCB 具有学习强大的网络欺凌检测能力，并减轻了偏见，其在性能和偏见减轻上优于最先进的去偏方法。我们的定量和定性分析证明其对未知数据的泛化能力。

Abstract

swear words are a common proxy to collect datasets with cyberbullying incidents. Our focus is on measuring and mitigating biases derived f

swear words cyberbullying biases id-xcb debiasing

发现论文，激发创造

社交媒体平台感知的对抗编码在网络欺凌检测中的应用

研究提出了一种跨平台的基于 Transformers 和对抗学习的新型框架 XP-CB，通过增强 Transformer 并利用源平台和目标平台的未标记数据来提取共同的表示形式并防止特定于平台的训练，研究取得了 BERT 和 RoBERTa 的效果验证

Apr, 2022

带公平性约束的网络欺凌检测

本研究提出了一种采用公正性约束的模型训练方案，旨在缓解网络暴力检测模型中的意外偏见，证明了各种类型的意外偏见可以成功地减轻而不损害模型的质量。

May, 2020

自述恶霸：情感辅助的网络欺凌检测及解释

通过开发首个可解释模型 mExCB，基于混合编码语言的 BullyExplain 数据集，自动检测网络欺凌并辨识解释、目标群体以及情感分析，超越多个基准模型和现有模型的综合任务框架。

Jan, 2024

减少辱骂语言检测中的性别偏见

本文研究滥用语言检测模型的偏见问题，通过使用不同的滥用语言数据集和预训练词嵌入和模型架构，分析性别偏见并尝试了三种减轻偏见的方法：去偏向词嵌入、性别交换数据扩充以及使用更大的语料库进行微调。这些方法有效的降低了性别偏见 90-98%，并且可以扩展到解决其他情况下的偏见问题。

Aug, 2018

自动去偏见检测有害语言面临的挑战

由于文本分类器开发中的偏见关联限制了公平性和准确性，因此我们调查了最近介绍的去偏置方法，作用于检测有毒语言的文本分类数据集和模型，重点关注词汇（例如骂人话、侮辱性言论、身份称谓）和方言标记（特别是非裔美国英语）。我们的全面实验表明，现有的方法在防止当前毒性检测器中出现有偏见的行为方面存在局限性。然后，我们提出了一种自动的方言感知数据校正方法作为概念验证。尽管采用了合成标签，但该方法减少了方言与毒性之间的关联。总的来说，我们的发现表明，在训练有毒性偏见性数据的模型时去偏置并不如简单重标记数据以消除现有偏见有效。

Jan, 2021

网络欺凌分类器对模型无关扰动敏感

本研究探讨了模型无关的敌对行为和数据增强对有毒内容分类的影响，发现模型不再仅仅依靠词汇线索，而是更易受攻击和影响，需要更多的数据增强以提高鲁棒性与准确性。

Jan, 2022

预训练语言模型去偏差技术有效性的实证研究

本文调查了五种最近提出的消除算法：CDA、Dropout、Iterative Nullspace Projection、Self-Debias 和 SentenceDebias 的有效性。实验结果显示，Self-Debias 是最有效的去偏置技术。但是现有去偏置技术在减轻非性别偏差方面表现不一致，同时算法会降低模型的语言建模能力，难以确定去偏置的效果。

Oct, 2021

社交网络中检测恶意网络欺凌和仇恨言论的深度学习方法

本研究针对社交网络文本数据中含有的对抗性攻击内容，特别强调仇恨言论的网络欺凌进行检测，利用基于深度学习的方法和纠错算法，实现了显著结果。LSTM 模型在固定的 100 个时期内表现出色，准确率、精确率、召回率、F1 分数和 AUC-ROC 分数分别达到了 87.57%、88.73%、87.57%、88.15% 和 91%。此外，LSTM 模型的性能超过了先前的研究。

May, 2024

基于数据驱动的对抗文本扰动缓解

本文提出了一种使用 deobfuscation 和 CW2V 嵌入的强健分类管道，用于检测 Facebook 帖子是否请求参与（例如点赞）。在针对有意和无意的对抗文本扰动方面，CW2V 嵌入的强健性优于基于字符 ngram 的嵌入，其分类结果在扰动下的 AUC 从 0.70 降至 0.67，而字符 ngram 嵌入的分类结果从 0.76 降至 0.64。

Feb, 2022

去偏差化是否必然导致模型性能下降

本文提出了一个理论框架，解释了语言模型性别偏差的三个候选机制，发现大部分现有的去偏见方法会导致性能下降，但提出了一种不会降低模型性能的方法，即因果检测微调方法。通过数值实验证明，该方法能够在部分缓解性别偏差的同时避免性能下降。

Nov, 2022