混合代码社交媒体文本中跨语言滥用识别
本文描述了 'Moj Masti' 团队提出的系统,使用了 ShareChat/Moj 在 IIIT-D 多语言恶性评论识别挑战中提供的数据,重点介绍了如何利用多语言 Transformer 预训练和微调模型来处理混合代码 / 交替代码分类任务,最终在测试数据 / 排行榜上实现了平均 F-1 分数为 0.9 的最佳性能,并通过添加音译数据、集成和一些后处理技术进一步提高了系统的性能,从而将我们放在了排行榜的第一位。
Jan, 2022
本篇论文探讨针对印度尼西亚语多语种辱骂性言论的大规模分析,研究不同的语言转移机制及该领域的多语种模型的表现,同时探究此类模型对抗性攻击的能力,并进行了误判分析。
Apr, 2022
本文研究了如何通过利用词的上下文特性和分布式表征来处理混合代码数据中单词的不同变体,并表明这种预处理方式可以提高最先进的词性标注和情感分析任务的性能。
Apr, 2018
为了防止网络暴力和仇恨言论,本文通过对两个印度最流行的社交媒体平台 Twitter 和 Facebook 上的印地语 - 英语代码混合数据进行注释,开发出一套攻击标签集和注释语料库,以进行进一步的研究和防范。
Mar, 2018
本文提出了一种多模态方法(MADA),以从社交媒体上的多语言对话音频中检测滥用内容为目标,并证明利用其他模态的判别信息对音频建模可以极大地提高性能。实验证明,MADA 可以在 ADIMA 数据集上取得比仅使用音频的方法更好的表现,并且在测试了 10 种不同语言后,在多模态结合的情况下可以获得 0.6%-5.2% 的一致增益。 此外,我们还做了实验证明了潜在情绪和虐待行为之间存在强烈的相关性。
Apr, 2022
使用 CREENDER 开发了一个注释工具,用于创建图像和滥用评论的多模态数据集,该数据集在不同角度被分析,发现图像中是否存在人会增加触发攻击性评论的概率。
May, 2020
研究发现,针对社交媒体文本中的混合编码文本进行专门设计的双语模型和多语模型表现最佳,而庞大生成模型则不具有竞争力。对于情感分析和辱骂语言检测等任务,这些模型在混合编码数据上的表现稍微优于非混合编码数据。
May, 2024
本研究中,我们使用迁移学习和基于 LSTM 的模型对印地语和英语 (hinglish) 混合使用的口语文本中的攻击和滥用语言进行检测和分类,该模型比现有最佳模型表现更好,在 Hinglish 攻击文本分类领域成为最先进技术。我们还为研究目的发布了我们的模型和训练嵌入。
Sep, 2018