动态精化正则化以提高跨语料库的仇恨言论检测

ACLMar, 2022

Dynamically Refined Regularization for Improving Cross-corpora Hate Speech Detection

Tulika Bose, Nikolaos Aletras, Irina Illina, Dominique Fohr

TL;DR自动识别和减少虚假相关，并使用动态精修词汇表来规范已有的分类器以提高跨数据集的表现。

Abstract

hate speech classifiers exhibit substantial performance degradation when evaluated on datasets different from the source. This is due to l

发现论文，激发创造

本文通过优化和规范技术，提出一种基于 RoBERTa 的新型模型，解决仅有少量隐含仇恨言论数据的高方差问题，达到了最先进的表现。

Aug, 2022

提出了一种域自适应方法，通过自动提取和惩罚源特定术语来适应不同领域的仇恨言论检测，以实现跨领域评估的一致提高。

Sep, 2022

针对在线仇恨言论的自动检测是 NLP 领域的一个研究热点。本文通过对不同的仇恨言论检测数据集进行微调，分析了数据集通用性的差异，并证明了数据集的组合能够促进强大的仇恨言论检测模型的发展。

Jul, 2023

通过信息检索领域的标准方法，采用池化和主动学习技术及任务分解和注释说明技巧，构建了一个更全面的针对 Twitter 中仇恨言论检测的基准数据集，并显示了现有检测模型在这些更广泛的仇恨形式测试中准确度的显著下降。

Jun, 2021

本研究提出了一种新方法，利用情感话题标记在自然语言推理框架中增强仇恨言论检测，并在实际数据集上证明了其相对于现有表示学习模型的有效性。

Apr, 2022

一项关于仇恨言论检测的研究，提出了一种基于情绪知识的多任务架构的方法，通过跨领域设置来改善仇恨言论检测的泛化能力，实验证明其在交叉领域评估中具有稳定的泛化改进和平均交叉领域性能提升。

Nov, 2023

本文通过提供一个西班牙语口音的基于社交媒体中与 COVID-19 相关的新闻发布的用户回复的语料库，证明了对于检测 hate speech，加入上下文信息可以提高自动检测模型的性能。

Oct, 2022

介绍了使用注意力正则化技术改进预训练变换器语言模型（PLMs）生成对抗叙事的能力，实验表明，正则化的模型在大多数情况下能够产生比现有方法更好的对抗叙事，尤其是在训练数据中不存在仇恨目标的情况下。

Sep, 2023

通过使用预训练语言模型 BERT 进行迁移学习，本文提出了一种在推特上进行种族主义、性别主义、仇恨性或冒犯性内容检测的算法，并将对算法进行合理地裁剪降低出现倾向性的缺陷。

Aug, 2020

该研究在对七种针对仇恨言论检测的最先进模型进行分析后，得出了基于数据类型和标注标准重要性大于模型架构的结论，并证明了字符级特征可以有效抵御自动插入错别字等对抗攻击。

Aug, 2018