社交媒体中的文本毒性:理解 Facebook 评论中表达的孟加拉毒性语言
本文描述了 'Moj Masti' 团队提出的系统,使用了 ShareChat/Moj 在 IIIT-D 多语言恶性评论识别挑战中提供的数据,重点介绍了如何利用多语言 Transformer 预训练和微调模型来处理混合代码 / 交替代码分类任务,最终在测试数据 / 排行榜上实现了平均 F-1 分数为 0.9 的最佳性能,并通过添加音译数据、集成和一些后处理技术进一步提高了系统的性能,从而将我们放在了排行榜的第一位。
Jan, 2022
使用深度学习策略,本研究构建了一个双层双向长短时记忆(Bi-LSTM)模型,通过多种优化器和 5 折交叉验证来鉴别孟加拉语中的网络欺凌,结果显示所提出的模型在动量加速随机梯度下降(SGD)优化器下的准确率为 94.46%,在 Adam 优化器下的准确率为 95.08%,F1 分数为 95.23%,并在 5 折交叉验证中具有 94.31% 的准确率。
Jan, 2024
本文介绍了一种用于识别巴西葡萄牙语社交媒体上有毒言论的新的大规模数据集,使用 monolingual 的数据,BERT 模型在二元案例中可以达到 76% 的宏平均 - F1 分数,但仍需要大规模单语数据来创建更精确的模型,并强调了开发能够区分不同类别有毒言论的模型的必要性。
Oct, 2020
使用基于树的方法分析在线社交媒体上用户对有害内容的行为和上下文,研究发现毒性评论会增加在线对话中产生后续毒性评论的可能性,并观察到在用户行为和模式方面,共识亵渎与非共识亵渎存在重叠的相似性。
Apr, 2024
本研究通过对 Reddit 社交媒体平台上的对话进行跨主题和跨语言的毒性分析,收集了来自六种语言、481 个社区的 150 万个评论串,涵盖了文化、政治和新闻等 80 个主题。我们深入分析了毒性如何在不同社区中在特定主题上呈现出峰值,并观察到某些主题毒性在不同语言中存在一致的增长模式,同时也注意到特定语言社区内存在显著差异。
Apr, 2024
本文针对社交媒体上孟加拉语仇恨言论检测的挑战,通过众包标注和专家验证构建了一个包含 30,000 条用户评论的数据集,并利用多个深度学习模型对其进行了实验。结果表明将 SVM 用于该数据集能够获得 87.5% 的准确率,该数据集将推动孟加拉语仇恨言论检测领域的未来研究机会。
Dec, 2020
研究讨论了社交媒体平台上存在的有害评论问题,提出使用 Lstm-cnn 模型构建分类器,以高精度区分有毒和无毒评论,并帮助组织更好地检查评论区的有害性。
Apr, 2023
在这篇研究中,我们探讨了社交媒体上的冒犯性内容识别问题,特别关注多语社会中常见的音译和混合语言现象对自然语言处理系统的挑战。我们引入了一份包含 5000 条手动注释评论的音译孟加拉冒犯性语言数据集(TB-OLID),并在该数据集上对机器学习模型进行训练、微调和评估。结果显示,fBERT 和 HateBERT 等基于英语预训练的 Transformer 模型在该数据集上表现最佳。
Nov, 2023
本研究针对 Bengali 等低资源语言在社交媒体上的仇恨言论进行研究,开发了一个定量数据集并建立了基线模型和一些额外的方法以更好地进行分类。在分析误分类之后,我们确认 XLM-Roberta 在单独训练 actual 或 rominized 数据集时表现最好。而在联合训练和小样本训练中,MuRIL 通过更好地解析语义表达比其他模型表现更优秀。
Oct, 2022