社交媒体仇恨言论检测的迁移学习

Jun, 2019

社交媒体仇恨言论检测的迁移学习

Transfer Learning for Hate Speech Detection in Social Media

Lanqin Yuan, Tianyu Wang, Gabriela Ferraro, Hanna Suominen, Marian-Andrei Rizoiu

TL;DR本文介绍了一种机器学习和自然语言处理模型，通过自动识别网页文本中的仇恨言论以及利用迁移学习技术构建了一个识别仇恨言论的表示方法，并开发了一个可视化工具用于多个数据集的简要分析。

Abstract

Today, the internet is an integral part of our daily lives, enabling people to be more connected than ever before. However, this greater connectivity and access to information increase exposure to harmful content such as cyber-bullying and cyber-hatred. Models based on machine learning

machine learning hate speech transfer learning annotation social media

发现论文，激发创造

基于 BERT 的在线社交媒体仇恨言论检测的迁移学习方法

本研究提出了一种基于 BERT 和 Transfer Learning 的新型方案，以捕获社交媒体内容中的仇恨语境，并证明该方案能有效解决标注数据不足和存在偏差的问题，使得模型性能得到提升。

Oct, 2019

探究社交媒体中针对仇恨言论的深度学习方法

本文提出利用深度学习方法，结合各种嵌入技术，在社交媒体中检测各种类型的仇恨言论，特别是在包含有限上下文信息的推文中，这是一种非常具有挑战性的任务，三个公开数据集的实验结果表明精确度和 F1 得分都有显著提高。

May, 2020

基于特征提取的仇恨言论识别模型

本文介绍了 TU Berlin 小组在 2021 年印欧语言仇恨言论与攻击性内容检测共享任务的 1A 和 1B 子任务中采用的不同自然语言处理模型，包括基于循环神经网络的单词和字符级别模型以及基于 Bert 的转移学习方法，并评估了不同模型在比赛中的表现。结果表明，基于转移学习的模型在两个子任务中均取得了最佳结果。

Jan, 2022

基于 Transformer 深度学习的多语种仇恨言论分析与检测

使用基于 Transformer 模型的算法来检测社交媒体上的仇恨言论，无论语言如意大利语、英语、德语还是孟加拉语，该模型的检测准确率较现有基准和最先进模型提高，其成功率达到了 89%（孟加拉语）、91%（英语和德语）以及 77%（意大利语）

Jan, 2024

DeepHate: 多维文本表示的仇恨言论检测

提出一种新颖的深度学习模型 ——DeepHate，以使用多方面的文本表示方法（如词嵌入、情感和主题信息），自动检测在线社交平台上的仇恨言论。在三个公开可用的实际数据集上进行了广泛的实验和评估，结果表明 DeepHate 在检测仇恨言论的任务上优于现有技术水平，并进行了案例研究，以提供有助于检测在线社交平台上的仇恨言论的显着功能的见解。

Mar, 2021

基于 BERT 模型的社交媒体仇恨言论检测及种族偏见缓解

通过使用预训练语言模型 BERT 进行迁移学习，本文提出了一种在推特上进行种族主义、性别主义、仇恨性或冒犯性内容检测的算法，并将对算法进行合理地裁剪降低出现倾向性的缺陷。

Aug, 2020

只需要 "爱": 回避仇恨言论检测

该研究在对七种针对仇恨言论检测的最先进模型进行分析后，得出了基于数据类型和标注标准重要性大于模型架构的结论，并证明了字符级特征可以有效抵御自动插入错别字等对抗攻击。

Aug, 2018

探索基于 Transformer 的模型以识别英语和印度雅利安语中的仇恨言论和攻击性内容

本篇论文探索了基于 Transformer 的多种机器学习模型，用于探测英语和印度 - 雅利安语中的仇恨言论和冒犯性内容，研究团队 “超级马里奥” 采用 mBERT、XLMR-large、XLMR-base 等多种模型，我们在 Code-Mixed 数据集排名第二（宏平均 F1：0.7107）、在印地语二分类中排名第二（宏平均 F1：0.7797）、在英语四分类中排名第四（宏平均 F1：0.8006），在英语二分类中排名第十二（宏平均 F1：0.6447）。

Nov, 2021

基于 BERT 的集成方法用于仇恨言论检测

本文聚焦于利用包括 BERT 在内的多个深度模型以及集成学习等技术，对社交媒体上的仇恨言论进行分类，使用三个公开 Twitter 数据集进行实验并考察多种方法的分类性能，最终以新数据集 DHO 进行多标签分类，取得了不错的成果，尤其在集成学习方面表现良好，如在 Davidson 数据集上采用 stacking 技术得到了 97% 的 F1 得分，而在 DHO 数据集上汇聚集成学习技术得到了 77% 的 F1 得分。

Sep, 2022

基于深度神经网络的改进型 Twitter 两阶段仇恨言论分类

本文借助改进的 LSTM 神经网络架构，提出了一种基于 One-vs-Rest 分类器的两阶段方案，用于在社交媒体上自动检测仇恨性内容，并在公共语料库和其他数据集上进行了实验，结果显示其在仇恨言论检测任务中具有卓越的分类性能。

Jun, 2022