muBoost: 解决印度多语言文本分类问题的有效方法
本文描述了 'Moj Masti' 团队提出的系统,使用了 ShareChat/Moj 在 IIIT-D 多语言恶性评论识别挑战中提供的数据,重点介绍了如何利用多语言 Transformer 预训练和微调模型来处理混合代码 / 交替代码分类任务,最终在测试数据 / 排行榜上实现了平均 F-1 分数为 0.9 的最佳性能,并通过添加音译数据、集成和一些后处理技术进一步提高了系统的性能,从而将我们放在了排行榜的第一位。
Jan, 2022
本篇论文探讨针对印度尼西亚语多语种辱骂性言论的大规模分析,研究不同的语言转移机制及该领域的多语种模型的表现,同时探究此类模型对抗性攻击的能力,并进行了误判分析。
Apr, 2022
本文介绍了 Optimize_Prime 小组在 AC2022 项目中解决有限资源 Indic 语言中有害评论检测的方法,使用了集成模型,循环神经网络和 Transformer 等方法,并取得了不错的效果。
Apr, 2022
本论文提出了一种多语言自动化系统,使用机器学习和转换器来从混合语言的数据中识别带有冒犯性的文本,并在 Tamil、Malayalam 和 Kannada 三种语言的数据集上进行了测试。结果表明,该系统在不同语言上表现出不同的最佳表现方法,得分最高的是 m-BERT(Kannada)和 XLM-R(Tamil 和 Malayalam),系统性能达到了一定的水平。
Feb, 2021
本文介绍了参加 FIRE Shared Task 2021 的系统描述,该任务旨在自动识别乌尔都语中的滥用和威胁推文,结果显示支持向量机在去除停用词、应用词形还原、使用单词 n-grams (n = 1,2,3) 组合创建的特征矢量的条件下在滥用语言检测的任务上表现最佳,而在威胁语言检测的任务上,使用去除停用词、不应用词形还原、使用预训练的乌尔都语 Word2Vec 创建的特征向量,并使用过 - 采样技术使数据集平衡的支持向量机获得了最佳表现,本文的代码也可用于再现。
Apr, 2022
本文介绍了我们在印度低资源口语马拉地语中的 Offensive Language Identification 的工作,讨论了使用 BERT 模型进行文本分类任务以识别推文是否冒犯,比较了不同 BERT 模型在 HASOC 2022 测试集上的表现,包括从其他现有 Marathi 仇恨言论语料库 HASOC 2021 和 L3Cube-MahaHate 进行的扩充等,并且当将 MahaTweetBERT 模型在结合数据集(HASOC 2021 + HASOC 2022 + MahaHate)上进行微调时,其在 HASOC 2022 测试集上取得了 98.43 的 F1 得分,这也是 HASOC 2022 / MOLD v2 测试集的新最优表现。
Dec, 2022
在本文中,我们使用 Marathi 语言的标准多语言模型和单语模型比较分析,通过五种不同的下游任务微调实验证明了单语 MahaBERT 模型的性能比多语言 BERT 变体更好。同时,我们还评估了来自这些模型的句子嵌入。
Apr, 2022
本文介绍了我们基于转换器模型的 LT-EDI 共享任务中用于检测社交媒体评论中的恐同和仇视跨性别内容的系统,使用 mBERT 等模型,并通过数据增强技术处理类别不平衡问题,代码已开源。在英语、泰米尔语和泰米尔语 - 英语子任务中,我们的排名分别为 9、6、3,宏平均 F1 得分为 0.42、0.64 和 0.58。
Mar, 2022
本文介绍了我们在第一届孟加拉语语言处理研讨会的暴力煽动文本检测共享任务中的工作。针对社交媒体上的仇恨和暴力煽动性言论的传播加速,开发高效的机制来检测和遏制此类文本的传播至关重要。在资源匮乏的环境中,检测暴力煽动文本的问题更加严重,因为研究稀少且数据较少。共享任务提供的数据是孟加拉语文本,每个示例根据暴力煽动文本的类型被分类为三个类别之一。我们尝试评估了几个基于 BERT 的模型,然后使用模型集成作为我们的最终提交。我们的提交在最终排行榜上排名第 10,宏观 F1 得分为 0.737。
Nov, 2023