多语种社交媒体内容的毒性检测

Jan, 2022

Toxicity Detection for Indic Multilingual Social Media Content

Manan Jhaveri, Devanshu Ramaiya, Harveen Singh Chadha

TL;DR本文描述了 'Moj Masti' 团队提出的系统，使用了 ShareChat/Moj 在 IIIT-D 多语言恶性评论识别挑战中提供的数据，重点介绍了如何利用多语言 Transformer 预训练和微调模型来处理混合代码 / 交替代码分类任务，最终在测试数据 / 排行榜上实现了平均 F-1 分数为 0.9 的最佳性能，并通过添加音译数据、集成和一些后处理技术进一步提高了系统的性能，从而将我们放在了排行榜的第一位。

Abstract

toxic content is one of the most critical issues for social media platforms today. India alone had 518 million social media users in 2020. In order to provide a good experience to content creators and their audie

toxic content social media platforms indic languages multilingual transformer-based models abuse detection

发现论文，激发创造

混合代码社交媒体文本中跨语言滥用识别

本文提出了一种针对多语言 Moj 数据集的辱骂识别方法，解决了非英语社交媒体内容中常见的混合码，音译和使用不同文字的额外挑战。

Mar, 2022

muBoost: 解决印度多语言文本分类问题的有效方法

本文提出了一种基于 muBoost 算法，使用多语言表示和分类器在 Moj 平台上检测 13 种印刷语言的恶意评论的解决方案，其 F1 得分达到 89.286，优于基线 MURIL 模型的 87.48。

Jun, 2022

巴西葡语社交媒体有害语言检测：新数据集和多语言分析

本文介绍了一种用于识别巴西葡萄牙语社交媒体上有毒言论的新的大规模数据集，使用 monolingual 的数据，BERT 模型在二元案例中可以达到 76% 的宏平均 - F1 分数，但仍需要大规模单语数据来创建更精确的模型，并强调了开发能够区分不同类别有毒言论的模型的必要性。

Oct, 2020

社交媒体中的文本毒性：理解 Facebook 评论中表达的孟加拉毒性语言

通过分析社交媒体上使用的孟加拉语有毒语言的数据集，本研究旨在检测和解决在社交媒体中存在的有毒言论问题。

Dec, 2023

改进基于数据引导的印度语恶意语言检测方法，提高低资源环境下的检测效果

本篇论文探讨针对印度尼西亚语多语种辱骂性言论的大规模分析，研究不同的语言转移机制及该领域的多语种模型的表现，同时探究此类模型对抗性攻击的能力，并进行了误判分析。

Apr, 2022

使用机器学习模型对社交媒体毒性评论进行分类

研究讨论了社交媒体平台上存在的有害评论问题，提出使用 Lstm-cnn 模型构建分类器，以高精度区分有毒和无毒评论，并帮助组织更好地检查评论区的有害性。

Apr, 2023

ToxVidLLM：一种基于多模态 LLM 的代码混合视频毒性检测框架

本研究通过引入一个基准数据集，首次探索了多模式母语混杂视频内容中有害内容的检测问题，设计了一个先进的多模态多任务框架来进行视频内容的毒性检测，并通过整合视频的多个语言模式大大提高了检测效果。

May, 2024

基于预训练语言模型检测社交媒体评论中的恐同和恐 Trans 现象

本文介绍了我们基于转换器模型的 LT-EDI 共享任务中用于检测社交媒体评论中的恐同和仇视跨性别内容的系统，使用 mBERT 等模型，并通过数据增强技术处理类别不平衡问题，代码已开源。在英语、泰米尔语和泰米尔语 - 英语子任务中，我们的排名分别为 9、6、3，宏平均 F1 得分为 0.42、0.64 和 0.58。

Mar, 2022

Optimize_Prime@DravidianLangTech-ACL2022: 满语中的辱骂评论检测

本文介绍了 Optimize_Prime 小组在 AC2022 项目中解决有限资源 Indic 语言中有害评论检测的方法，使用了集成模型，循环神经网络和 Transformer 等方法，并取得了不错的效果。

Apr, 2022

多任务学习在毒性评论检测中降低模型偏差的实证分析

该论文评估了多种最先进的模型，特别关注减少模型对一些少数群体的偏见，提出了一个多任务学习模型以及一系列深度学习模型，并使用特定的指标测试这些身份群体中意料之外的模型偏见。

Sep, 2019