应对数据稀缺条件下隐式仇恨言论分类中的高方差问题

Aug, 2022

应对数据稀缺条件下隐式仇恨言论分类中的高方差问题

Combating high variance in Data-Scarce Implicit Hate Speech Classification

Debaditya Pal, Kaustubh Chaudhari, Harsh Sharma

TL;DR本文通过优化和规范技术，提出一种基于 RoBERTa 的新型模型，解决仅有少量隐含仇恨言论数据的高方差问题，达到了最先进的表现。

Abstract

hate speech classification has been a long-standing problem in natural language processing. However, even though there are numerous hate speech detection methods, they usually overlook a lot of hateful statements due to them being implicit in nature. Developing →

hate speech classification implicit hate speech datasets roberta-based model optimization

发现论文，激发创造

基于 BERT 模型的社交媒体仇恨言论检测及种族偏见缓解

通过使用预训练语言模型 BERT 进行迁移学习，本文提出了一种在推特上进行种族主义、性别主义、仇恨性或冒犯性内容检测的算法，并将对算法进行合理地裁剪降低出现倾向性的缺陷。

Aug, 2020

只需要 "爱": 回避仇恨言论检测

该研究在对七种针对仇恨言论检测的最先进模型进行分析后，得出了基于数据类型和标注标准重要性大于模型架构的结论，并证明了字符级特征可以有效抵御自动插入错别字等对抗攻击。

Aug, 2018

基于 BERT 的集成方法用于仇恨言论检测

本文聚焦于利用包括 BERT 在内的多个深度模型以及集成学习等技术，对社交媒体上的仇恨言论进行分类，使用三个公开 Twitter 数据集进行实验并考察多种方法的分类性能，最终以新数据集 DHO 进行多标签分类，取得了不错的成果，尤其在集成学习方面表现良好，如在 Davidson 数据集上采用 stacking 技术得到了 97% 的 F1 得分，而在 DHO 数据集上汇聚集成学习技术得到了 77% 的 F1 得分。

Sep, 2022

HateDebias: 关于仇恨言论去偏见的多样性与可变性

社交媒体上的仇恨言论普遍存在且亟需控制，本研究提出了一个名为 HateDebias 的基准测试，旨在分析在不断变化的环境下仇恨言论检测模型的能力，通过收集不同类型偏见的现有数据集，并重新组织数据集以适应连续学习的设置，评估在单一类型偏见数据集上训练的模型的检测准确性与在 HateDebias 上的表现，进一步提出了基于连续学习和偏见信息规范化的去偏见框架和记忆重播策略，实验结果表明该方法可以显著提高几个基线模型的效果，突显其在实际应用中的有效性。

Jun, 2024

基于 BERT 的在线社交媒体仇恨言论检测的迁移学习方法

本研究提出了一种基于 BERT 和 Transfer Learning 的新型方案，以捕获社交媒体内容中的仇恨语境，并证明该方案能有效解决标注数据不足和存在偏差的问题，使得模型性能得到提升。

Oct, 2019

动态精化正则化以提高跨语料库的仇恨言论检测

自动识别和减少虚假相关，并使用动态精修词汇表来规范已有的分类器以提高跨数据集的表现。

Mar, 2022

构建仇恨言论检测数据集的挑战

通过对针对性别少数群体的仇恨言论的具体例子，本文分析了仇恨言论检测所面临的问题，并提出了一个以数据为中心的综合框架，以跨七个广泛的维度来概括数据创建流程，同时指出实践者将从按照该框架来创建未来的仇恨言论数据集中获益。

Sep, 2023

基于 Transformer 的大型语言模型检测反犹太主义仇恨言论

我们研究了替代性的基于变压器的生成型 AI 技术，并开发了一种新的数据标注技术，证明了这些先进方法在应对仇恨言论检测中的比较有效性，强调在敏感环境中需要负责任和谨慎管理的 AI 应用。

May, 2024

社交媒体中的强韧仇恨言论检测：跨数据集实证评估

针对在线仇恨言论的自动检测是 NLP 领域的一个研究热点。本文通过对不同的仇恨言论检测数据集进行微调，分析了数据集通用性的差异，并证明了数据集的组合能够促进强大的仇恨言论检测模型的发展。

Jul, 2023

基于特征提取的仇恨言论识别模型

本文介绍了 TU Berlin 小组在 2021 年印欧语言仇恨言论与攻击性内容检测共享任务的 1A 和 1B 子任务中采用的不同自然语言处理模型，包括基于循环神经网络的单词和字符级别模型以及基于 Bert 的转移学习方法，并评估了不同模型在比赛中的表现。结果表明，基于转移学习的模型在两个子任务中均取得了最佳结果。

Jan, 2022