社交媒体中的文本毒性：理解 Facebook 评论中表达的孟加拉毒性语言

Dec, 2023

社交媒体中的文本毒性：理解 Facebook 评论中表达的孟加拉毒性语言

Textual Toxicity in Social Media: Understanding the Bangla Toxic Language Expressed in Facebook Comment

Mohammad Mamun Or Rashid

TL;DR通过分析社交媒体上使用的孟加拉语有毒语言的数据集，本研究旨在检测和解决在社交媒体中存在的有毒言论问题。

Abstract

social media is a repository of digital literature including user-generated content. The users of social media are expressing their opinion with diverse mediums such as text, emojis, memes, and also through other

social media toxic language cyberbullying bengali community bangladesh

发现论文，激发创造

多语种社交媒体内容的毒性检测

本文描述了 'Moj Masti' 团队提出的系统，使用了 ShareChat/Moj 在 IIIT-D 多语言恶性评论识别挑战中提供的数据，重点介绍了如何利用多语言 Transformer 预训练和微调模型来处理混合代码 / 交替代码分类任务，最终在测试数据 / 排行榜上实现了平均 F-1 分数为 0.9 的最佳性能，并通过添加音译数据、集成和一些后处理技术进一步提高了系统的性能，从而将我们放在了排行榜的第一位。

Jan, 2022

基于深度学习的孟加拉语网络欺凌检测

使用深度学习策略，本研究构建了一个双层双向长短时记忆（Bi-LSTM）模型，通过多种优化器和 5 折交叉验证来鉴别孟加拉语中的网络欺凌，结果显示所提出的模型在动量加速随机梯度下降（SGD）优化器下的准确率为 94.46%，在 Adam 优化器下的准确率为 95.08%，F1 分数为 95.23%，并在 5 折交叉验证中具有 94.31% 的准确率。

Jan, 2024

巴西葡语社交媒体有害语言检测：新数据集和多语言分析

本文介绍了一种用于识别巴西葡萄牙语社交媒体上有毒言论的新的大规模数据集，使用 monolingual 的数据，BERT 模型在二元案例中可以达到 76% 的宏平均 - F1 分数，但仍需要大规模单语数据来创建更精确的模型，并强调了开发能够区分不同类别有毒言论的模型的必要性。

Oct, 2020

分析深度对话中的有害性：Reddit 案例研究

使用基于树的方法分析在线社交媒体上用户对有害内容的行为和上下文，研究发现毒性评论会增加在线对话中产生后续毒性评论的可能性，并观察到在用户行为和模式方面，共识亵渎与非共识亵渎存在重叠的相似性。

Apr, 2024

HATE 中的常数：在 Reddit 上跨主题和语言分析毒性

本研究通过对 Reddit 社交媒体平台上的对话进行跨主题和跨语言的毒性分析，收集了来自六种语言、481 个社区的 150 万个评论串，涵盖了文化、政治和新闻等 80 个主题。我们深入分析了毒性如何在不同社区中在特定主题上呈现出峰值，并观察到某些主题毒性在不同语言中存在一致的增长模式，同时也注意到特定语言社区内存在显著差异。

Apr, 2024

孟加拉语仇恨言论检测：数据集及其基准评估

本文针对社交媒体上孟加拉语仇恨言论检测的挑战，通过众包标注和专家验证构建了一个包含 30,000 条用户评论的数据集，并利用多个深度学习模型对其进行了实验。结果表明将 SVM 用于该数据集能够获得 87.5% 的准确率，该数据集将推动孟加拉语仇恨言论检测领域的未来研究机会。

Dec, 2020

使用机器学习模型对社交媒体毒性评论进行分类

研究讨论了社交媒体平台上存在的有害评论问题，提出使用 Lstm-cnn 模型构建分类器，以高精度区分有毒和无毒评论，并帮助组织更好地检查评论区的有害性。

Apr, 2023

混合代码社交媒体文本中跨语言滥用识别

本文提出了一种针对多语言 Moj 数据集的辱骂识别方法，解决了非英语社交媒体内容中常见的混合码，音译和使用不同文字的额外挑战。

Mar, 2022

识别转写和混合编码的孟加拉语冒犯性语言

在这篇研究中，我们探讨了社交媒体上的冒犯性内容识别问题，特别关注多语社会中常见的音译和混合语言现象对自然语言处理系统的挑战。我们引入了一份包含 5000 条手动注释评论的音译孟加拉冒犯性语言数据集（TB-OLID），并在该数据集上对机器学习模型进行训练、微调和评估。结果显示，fBERT 和 HateBERT 等基于英语预训练的 Transformer 模型在该数据集上表现最佳。

Nov, 2023

孟加拉语仇恨言论和冒犯性语言检测

本研究针对 Bengali 等低资源语言在社交媒体上的仇恨言论进行研究，开发了一个定量数据集并建立了基线模型和一些额外的方法以更好地进行分类。在分析误分类之后，我们确认 XLM-Roberta 在单独训练 actual 或 rominized 数据集时表现最好。而在联合训练和小样本训练中，MuRIL 通过更好地解析语义表达比其他模型表现更优秀。

Oct, 2022