Civil Comments 数据集上有害评论分类的基准

Jan, 2023

Civil Comments 数据集上有害评论分类的基准

A benchmark for toxic comment classification on Civil Comments dataset

Corentin Duchene, Henri Jamet, Pierre Guillaume, Reda Dehak

TL;DR比较多个模型在高度倾斜的多标签仇恨言论数据集上进行毒性评论检测，结果表明 BERT、RNN 和 XLNet 对关联身份的偏见较不敏感，RoBERTa 的 Focal Loss 表现最佳，而 DistilBERT 则结合了良好的 AUROC 和低推理时间。

Abstract

toxic comment detection on social media has proven to be essential for content moderation. This paper compares a wide set of different models on a highly skewed multi-label →

toxic comment detection social media berts hate speech dataset performance metrics

发现论文，激发创造

基于 BERT 的集成方法用于仇恨言论检测

本文聚焦于利用包括 BERT 在内的多个深度模型以及集成学习等技术，对社交媒体上的仇恨言论进行分类，使用三个公开 Twitter 数据集进行实验并考察多种方法的分类性能，最终以新数据集 DHO 进行多标签分类，取得了不错的成果，尤其在集成学习方面表现良好，如在 Davidson 数据集上采用 stacking 技术得到了 97% 的 F1 得分，而在 DHO 数据集上汇聚集成学习技术得到了 77% 的 F1 得分。

Sep, 2022

使用深度学习方法确定有毒评论和意外模型偏差最小化

使用 BERT 模型，通过对权重损失的加权处理，检测有毒评论并减少对包括种族、性别、宗教在内的身份特征的意外偏见。与传统的逻辑回归模型相比，经过微调的 BERT 模型在分类和偏见减少方面表现得更好，具有 89% 的准确率。

Nov, 2023

基于 BERT 模型的社交媒体仇恨言论检测及种族偏见缓解

通过使用预训练语言模型 BERT 进行迁移学习，本文提出了一种在推特上进行种族主义、性别主义、仇恨性或冒犯性内容检测的算法，并将对算法进行合理地裁剪降低出现倾向性的缺陷。

Aug, 2020

使用深度学习进行可解释的孟加拉有害评论多标签分类

本文提出了一个基于深度学习的流程，用于分类孟加拉语的有害评论，首先使用二元分类模型确定评论是否有害，然后使用多标签分类器确定评论属于哪种毒性类型，使用 LSTM 和 BERT 嵌入达到了 89.42% 的准确性，并使用卷积神经网络和双向 LSTM（CNN-BiLSTM）实现了 78.92% 的准确率和 0.86 的加权 F1 分数。

Apr, 2023

基于 BERT 的在线社交媒体仇恨言论检测的迁移学习方法

本研究提出了一种基于 BERT 和 Transfer Learning 的新型方案，以捕获社交媒体内容中的仇恨语境，并证明该方案能有效解决标注数据不足和存在偏差的问题，使得模型性能得到提升。

Oct, 2019

多任务学习在毒性评论检测中降低模型偏差的实证分析

该论文评估了多种最先进的模型，特别关注减少模型对一些少数群体的偏见，提出了一个多任务学习模型以及一系列深度学习模型，并使用特定的指标测试这些身份群体中意料之外的模型偏见。

Sep, 2019

RoBERTa-BiLSTM：一种用于情感分析的上下文感知混合模型

通过结合 RoBERTa 和 BiLSTM 网络的 RoBERTa-BiLSTM 混合深度学习模型，在情感分析中实现更好的性能。

Jun, 2024

韩国在线新闻评论语料库用于毒性言论检测

本文旨在确定韩语毒性言论，提供了相关数据集，并使用 CharCNN、BiLSTM 和 BERT 三种模型进行分析和预测，结果显示 BERT 在所有任务中表现最佳。

May, 2020

AnnoBERT: 有效表示多位标注者的标签选择以提高仇恨言论检测

本文介绍了 AnnoBERT，它是首个将注释者特征和标签文本与基于 Transformer 的模型结合起来以检测仇恨言论的架构。通过融合标签文本来丰富文本表示，训练过程中，模型将注释者与他们在一条文本中的所选标签相关联，在评估时，当标签信息不可用时，使用学习到的关联预测参与注释者提供的汇总标签，该方法在检测仇恨言论方面显示出优势，特别是在少数类和注释者存在不一致的边缘情况下的性能提高最大。

Dec, 2022

基于特征提取的仇恨言论识别模型

本文介绍了 TU Berlin 小组在 2021 年印欧语言仇恨言论与攻击性内容检测共享任务的 1A 和 1B 子任务中采用的不同自然语言处理模型，包括基于循环神经网络的单词和字符级别模型以及基于 Bert 的转移学习方法，并评估了不同模型在比赛中的表现。结果表明，基于转移学习的模型在两个子任务中均取得了最佳结果。

Jan, 2022