在德语明示和暗示字符级防御下对仇恨言论BERT分类器进行白盒攻击

Feb, 2022

在德语明示和暗示字符级防御下对仇恨言论BERT分类器进行白盒攻击

White-Box Attacks on Hate-speech BERT Classifiers in German with Explicit and Implicit Character Level Defense

Shahrukh Khan, Mahnoor Shahid, Navdeeppal Singh

TL;DR评估德语仇恨言论数据集上BERT模型的对抗鲁棒性，并进行两个新的白盒字符级和单词级攻击，并比较两种新的字符级防御策略并评估它们的鲁棒性。

Abstract

In this work, we evaluate the adversarial robustness of bert models trained on german hate speech datasets. We also complement our evaluat

发现论文，激发创造

基于BERT的在线社交媒体仇恨言论检测的迁移学习方法

本研究提出了一种基于BERT和Transfer Learning的新型方案，以捕获社交媒体内容中的仇恨语境，并证明该方案能有效解决标注数据不足和存在偏差的问题，使得模型性能得到提升。

Oct, 2019

BERT-ATTACK: 使用BERT对抗BERT的对抗攻击

本文提出了使用BERT预训练模型的高质量有效的方法BERT-Attack，用于生成对抗样本并在对下游任务的深度神经模型进行攻击。在成功率和扰动百分比方面，我们的方法优于最先进的攻击策略，而生成的对抗样本则流畅且在语义上保留，且计算成本低，可用于大规模产生。

Apr, 2020

HateBERT: 用于英文恶意语言检测的BERT重新训练

介绍了HateBERT，这是一个在大规模Reddit评论数据集（RAL-E）上重新训练过的BERT模型，用于检测英语中的辱骂语言。在三个英语数据集中，加入了被封禁社区的帖子进行重新训练，检测攻击性、辱骂性语言和仇恨言论，结果表明HateBERT优于通用BERT模型，并进行了相关的实验。

Oct, 2020

BERT-Defense: 基于BERT的概率模型用于抵御认知启发式正交攻击

本文研究在深度学习系统中敌对攻击的问题，使用字符级攻击并检验了几种防御方法和模型，表明一种无监督的迭代方法与BERT的掩码语言模型相结合可以达到与人类众包工人相当的效果。

Jun, 2021

BERT强健性的案例！反驳基于同义词的文本分类对抗样本

本文调查了针对BERT的四种基于词汇替换的攻击方法，结合人类评估和概率分析，发现96%至99%的攻击并不能维护语义，其成功性主要基于将质量较差的数据输入模型中。作者进一步提出了有效的数据增强方案，以防止许多对抗性攻击。最终，通过对词汇更换的约束条件设定更合理的阈值，作者得出结论：BERT比攻击研究所说的要更加健壮。

Sep, 2021

论攻击性语言分类器的鲁棒性

该研究对社交媒体平台上的机器学习型进攻性语言分类器的鲁棒性做出了系统的分析，并证明了具有贪婪和注意力机制的词汇选择和上下文感知嵌入的攻击可将这些分类器的准确性降低50%以上，同时还能保持修改后文本的可读性和含义。

Mar, 2022

基于BERT的集成方法用于仇恨言论检测

本文聚焦于利用包括BERT在内的多个深度模型以及集成学习等技术，对社交媒体上的仇恨言论进行分类，使用三个公开Twitter数据集进行实验并考察多种方法的分类性能，最终以新数据集DHO进行多标签分类，取得了不错的成果，尤其在集成学习方面表现良好，如在Davidson数据集上采用stacking技术得到了97%的F1得分，而在DHO数据集上汇聚集成学习技术得到了77%的F1得分。

Sep, 2022

传递爱而不是仇恨：削弱仇恨预训练对于仇恨言论检测的重要性

本文研究了针对原本有恶意情绪的文本进行预训练是否为识别恶意言论最佳的预训练方法，结果表明从目标领域的非恶意文本进行预训练可以提供类似或更好的结果，同时介绍了第一批公开开放的印度语Hindi和Marathi的基于BERT的分类模型 HindTweetBERT 和 MahaTweetBERT 。

Oct, 2022

SemRoDe: 针对词级攻击鲁棒的学习表示的宏观对抗训练

我们提出了一种名为Semantic Robust Defence (SemRoDe)的新方法，通过Macro Adversarial Training策略增强了语言模型的鲁棒性，通过对话题领域的对抗样本进行关联，提高了模型对未知对抗样本的处理能力。

Mar, 2024

支持标注人员的提升对抗数据收集：GAHD德语仇恨言论数据集的经验教训

通过 GAHD 数据集，作者通过新策略支持标记人员创造更多样化的对抗性样本，提高现有仇恨言论检测模型的鲁棒性。

Mar, 2024