Jan, 2022

多语种社交媒体内容的毒性检测

TL;DR本文描述了 'Moj Masti' 团队提出的系统,使用了 ShareChat/Moj 在 IIIT-D 多语言恶性评论识别挑战中提供的数据,重点介绍了如何利用多语言 Transformer 预训练和微调模型来处理混合代码 / 交替代码分类任务,最终在测试数据 / 排行榜上实现了平均 F-1 分数为 0.9 的最佳性能,并通过添加音译数据、集成和一些后处理技术进一步提高了系统的性能,从而将我们放在了排行榜的第一位。