巴西葡语社交媒体有害语言检测：新数据集和多语言分析

ACLOct, 2020

巴西葡语社交媒体有害语言检测：新数据集和多语言分析

Toxic Language Detection in Social Media for Brazilian Portuguese: New Dataset and Multilingual Analysis

João A. Leite, Diego F. Silva, Kalina Bontcheva, Carolina Scarton

TL;DR本文介绍了一种用于识别巴西葡萄牙语社交媒体上有毒言论的新的大规模数据集，使用 monolingual 的数据，BERT 模型在二元案例中可以达到 76% 的宏平均 - F1 分数，但仍需要大规模单语数据来创建更精确的模型，并强调了开发能够区分不同类别有毒言论的模型的必要性。

Abstract

hate speech and toxic comments are a common concern of social media platform users. Although these comments are, fortunately, the minority

hate speech toxic comments social media brazilian portuguese bert models

发现论文，激发创造

TuPy-E：通过新数据集和广泛模型分析检测巴西葡萄牙语社交媒体中的仇恨言论

社交媒体成为人类交流和表达的重要平台，然而，这些平台上仇恨言论的增加给个人和社区带来了重大风险。鉴于葡萄牙语的丰富词汇、复杂语法和地区差异，检测和解决仇恨言论尤其具有挑战性。为了解决这个问题，我们引入了 TuPy-E，用于仇恨言论检测的最大葡萄牙语标注语料库。TuPy-E 采用开源方法，促进了研究界的合作。我们使用 BERT 模型等先进技术进行了详细分析，为学术研究和实际应用做出了贡献。

Dec, 2023

多语种社交媒体内容的毒性检测

本文描述了 'Moj Masti' 团队提出的系统，使用了 ShareChat/Moj 在 IIIT-D 多语言恶性评论识别挑战中提供的数据，重点介绍了如何利用多语言 Transformer 预训练和微调模型来处理混合代码 / 交替代码分类任务，最终在测试数据 / 排行榜上实现了平均 F-1 分数为 0.9 的最佳性能，并通过添加音译数据、集成和一些后处理技术进一步提高了系统的性能，从而将我们放在了排行榜的第一位。

Jan, 2022

韩国在线新闻评论语料库用于毒性言论检测

本文旨在确定韩语毒性言论，提供了相关数据集，并使用 CharCNN、BiLSTM 和 BERT 三种模型进行分析和预测，结果显示 BERT 在所有任务中表现最佳。

May, 2020

IndoToxic2024：一份丰富人口统计数据集，用于印度尼西亚语的仇恨言论和毒性类型

印尼互联网仇恨言论和毒性分类数据集的全面介绍以及对利用 BERT 模型和 gpt-3.5-turbo 进行情感分析的结果和注意事项。

Jun, 2024

建立巴西葡萄牙语推特情感语料库

本文介绍了 TweetSentBR，即一种人工注释的，用于情感语料库的巴西葡萄牙语语料库，用于在电视节目领域的 15.000 个句子上进行分类，通过三种机器学习方法进行了基线实验并获得了良好的分类准确度。

Dec, 2017

有毒语言检测：阿拉伯数据集的系统调查

本文综合调查了关于阿拉伯语在线毒性语言的数据集，收集了 49 个可用的数据集及其相应的论文，并对其进行了全面分析，考虑了内容、注释过程和可重复使用性三个主要维度的 16 个标准。通过这一分析，我们发现了现有的差距，并对今后的研究工作提出了建议。

Dec, 2023

越南开放式社交媒体评论的建设性和有毒言论检测

在本文中，我们使用越南自然语言处理中的 PhoBERT 等最先进的迁移学习模型，提出了一个用于建设性和有毒言论检测的系统，并使用 10000 个人工注释的评论创建了一个名为 UIT-ViCTSD 的数据集，从而解决了社交媒体评论质量低下和有害性问题。

Mar, 2021

检测有毒语料库中的意外社会偏见

本研究介绍了一个新的数据集 ToxicBias，这是从 Kaggle 竞赛中现有的数据集 “Jigsaw Unintended Bias in Toxicity Classification” 中精心策划的，旨在检测社交偏见及其类别和目标群体。我们使用我们策划的数据集对基于转换器的模型进行训练，并报告了偏见识别、目标生成和偏见影响的基线性能。研究还详细讨论了模型偏见及其缓解。

Oct, 2022

使用机器学习模型对社交媒体毒性评论进行分类

研究讨论了社交媒体平台上存在的有害评论问题，提出使用 Lstm-cnn 模型构建分类器，以高精度区分有毒和无毒评论，并帮助组织更好地检查评论区的有害性。

Apr, 2023

社交媒体中的文本毒性：理解 Facebook 评论中表达的孟加拉毒性语言

通过分析社交媒体上使用的孟加拉语有毒语言的数据集，本研究旨在检测和解决在社交媒体中存在的有毒言论问题。

Dec, 2023