在德语明示和暗示字符级防御下对仇恨言论BERT分类器进行白盒攻击
本研究提出了一种基于BERT和Transfer Learning的新型方案,以捕获社交媒体内容中的仇恨语境,并证明该方案能有效解决标注数据不足和存在偏差的问题,使得模型性能得到提升。
Oct, 2019
本文提出了使用BERT预训练模型的高质量有效的方法BERT-Attack,用于生成对抗样本并在对下游任务的深度神经模型进行攻击。在成功率和扰动百分比方面,我们的方法优于最先进的攻击策略,而生成的对抗样本则流畅且在语义上保留,且计算成本低,可用于大规模产生。
Apr, 2020
介绍了HateBERT,这是一个在大规模Reddit评论数据集(RAL-E)上重新训练过的BERT模型,用于检测英语中的辱骂语言。在三个英语数据集中,加入了被封禁社区的帖子进行重新训练,检测攻击性、辱骂性语言和仇恨言论,结果表明HateBERT优于通用BERT模型,并进行了相关的实验。
Oct, 2020
本文研究在深度学习系统中敌对攻击的问题,使用字符级攻击并检验了几种防御方法和模型,表明一种无监督的迭代方法与BERT的掩码语言模型相结合可以达到与人类众包工人相当的效果。
Jun, 2021
本文调查了针对BERT的四种基于词汇替换的攻击方法,结合人类评估和概率分析,发现96%至99%的攻击并不能维护语义,其成功性主要基于将质量较差的数据输入模型中。作者进一步提出了有效的数据增强方案,以防止许多对抗性攻击。最终,通过对词汇更换的约束条件设定更合理的阈值,作者得出结论:BERT比攻击研究所说的要更加健壮。
Sep, 2021
该研究对社交媒体平台上的机器学习型进攻性语言分类器的鲁棒性做出了系统的分析,并证明了具有贪婪和注意力机制的词汇选择和上下文感知嵌入的攻击可将这些分类器的准确性降低50%以上,同时还能保持修改后文本的可读性和含义。
Mar, 2022
本文聚焦于利用包括BERT在内的多个深度模型以及集成学习等技术,对社交媒体上的仇恨言论进行分类,使用三个公开Twitter数据集进行实验并考察多种方法的分类性能,最终以新数据集DHO进行多标签分类,取得了不错的成果,尤其在集成学习方面表现良好,如在Davidson数据集上采用stacking技术得到了97%的F1得分,而在DHO数据集上汇聚集成学习技术得到了77%的F1得分。
Sep, 2022
本文研究了针对原本有恶意情绪的文本进行预训练是否为识别恶意言论最佳的预训练方法,结果表明从目标领域的非恶意文本进行预训练可以提供类似或更好的结果,同时介绍了第一批公开开放的印度语Hindi和Marathi的基于BERT的分类模型 HindTweetBERT 和 MahaTweetBERT 。
Oct, 2022
我们提出了一种名为Semantic Robust Defence (SemRoDe)的新方法,通过Macro Adversarial Training策略增强了语言模型的鲁棒性,通过对话题领域的对抗样本进行关联,提高了模型对未知对抗样本的处理能力。
Mar, 2024