一种简单的、与语言无关的却非常强大的基线系统，用于仇恨言论和攻击性内容的识别

Feb, 2022

一种简单的、与语言无关的却非常强大的基线系统，用于仇恨言论和攻击性内容的识别

A simple language-agnostic yet very strong baseline system for hate speech and offensive content identification

Yves Bestgen

TL;DR通过使用基于字符 n-gram 的经典监督算法，SATLab 团队提出了一种自动识别推文中仇恨言论和冒犯性内容的系统，该系统与语言无关。在优化特征加权和分类器参数后，该系统在英语中达到了中等表现水平，在印地语和马拉地语这两种资源较少的语言中表现更好，甚至在这些语言的三项任务中的平均表现要比许多深度学习方法更好。表现表明该方法是一个有趣的参考水平，可用于评估使用更复杂方法（例如深度学习或考虑补充资源）的好处。

Abstract

For automatically identifying hate speech and offensive content in tweets, a system based on a classical supervised algorithm only fed wit

hate speech offensive content supervised algorithm character n-grams multilingual

发现论文，激发创造

HateMonitors：社交媒体语言无关的滥用检测

本文介绍了我们基于梯度提升机、BERT 和 LASER 嵌入式开发的 HateMonitor 模型，在 Indo-European Languages HASOC（FIRE 2019 的任务之一）中排名第一，用于令人讨厌和令人反感的内容识别。

Sep, 2019

FIRE 2020 上 HASOC 赛道概述：印欧语系中的仇恨言论与攻击内容识别

本文介绍了在社交媒体中迅速增长的仇恨言论现象以及如何使用多语言算法进行检测，其中包括 Hindi、德语和英语等三种语言，使用的数据集是通过机器学习系统对 Twitter 进行分类得到的，并使用了变压器结构 BERT 进行实验。

Aug, 2021

FIRE 2021 HASOC 子赛道概观：英语和印度－雅利安语言中的仇恨言论和攻击性内容识别

该研究论文介绍了 HASOC 子轨道，旨在为英语、印地语和马拉地语开发基准数据集，以支持在线平台的内容审核。他们解释了两种分析方法，分别为二元分类和精细分类问题，并提供分类算法的性能结果。

Dec, 2021

QutNocturnal@HASOC'19: 印地语中仇恨言论和攻击性内容辨识的 CNN

我们使用卷积神经网络对预训练的印度语推文进行分类，以识别 Hindi 中的仇恨言论和冒犯性语言。使用相对较小的相关推文集合代替通用领域的大型语料库进行前置向量训练，有效在比赛中取得了第一名，其方法可适用于其他文本分类任务中。

Aug, 2020

印度 - 雅利安语言中的仇恨言论和冒犯内容检测：基于 LSTM 和 Transformers 的对抗

该研究在五种不同语言中展开了对仇恨言论的广泛比较分析，使用多种预训练模型评估其在这些语言中识别仇恨言论的性能，并为多语言环境下构建强大的仇恨言论检测系统提供了有益的见解。

Dec, 2023

基于特征提取的仇恨言论识别模型

本文介绍了 TU Berlin 小组在 2021 年印欧语言仇恨言论与攻击性内容检测共享任务的 1A 和 1B 子任务中采用的不同自然语言处理模型，包括基于循环神经网络的单词和字符级别模型以及基于 Bert 的转移学习方法，并评估了不同模型在比赛中的表现。结果表明，基于转移学习的模型在两个子任务中均取得了最佳结果。

Jan, 2022

基于 Twitter BERT 的 Marathi 语攻击性语言检测方法

本文介绍了我们在印度低资源口语马拉地语中的 Offensive Language Identification 的工作，讨论了使用 BERT 模型进行文本分类任务以识别推文是否冒犯，比较了不同 BERT 模型在 HASOC 2022 测试集上的表现，包括从其他现有 Marathi 仇恨言论语料库 HASOC 2021 和 L3Cube-MahaHate 进行的扩充等，并且当将 MahaTweetBERT 模型在结合数据集（HASOC 2021 + HASOC 2022 + MahaHate）上进行微调时，其在 HASOC 2022 测试集上取得了 98.43 的 F1 得分，这也是 HASOC 2022 / MOLD v2 测试集的新最优表现。

Dec, 2022

利用 Transformer 模型检测会话式混合代码推文中的仇恨言论

本文介绍了 MIDAS-IIITD 团队针对 HASOC 2021 二号子任务提出的系统，用于检测推特上混合使用印地语和英语的谈话中的仇恨言论。我们采用神经网络方法，并利用 transformer 的跨语言嵌入来进行低资源语录下的贴性言论分类，其中最佳表现的系统 [(Indic-BERT, XLM-RoBERTa, 和 Multilingual BERT) 的难度投票集成方法，Macro F1 得分达到 0.7253，排名第一。

Dec, 2021

利用多语言转换器来进行仇恨言论检测

该论文基于 Transformer 语言模型，研究了在社交媒体文本中检测和分类仇恨的问题，并将其固定为三类，同时证明了多语言训练模式的有效性和特定特征对体系结构分类表现的影响。

Jan, 2021

基于模型无关元学习的多语言仇恨言论检测

本文提出了 HateMAML 框架，通过 meta-learning 技术和 self-supervision 策略在低资源语言下进行仇恨言论检测，并且达到了比现有方案更好的性能，同时兼备了跨语言迁移和领域泛化功能。

Mar, 2023