muBoost: 解决印度多语言文本分类问题的有效方法

Jun, 2022

muBoost: 解决印度多语言文本分类问题的有效方法

muBoost: An Effective Method for Solving Indic Multilingual Text Classification Problem

Manish Pathak, Aditya Jain

TL;DR本文提出了一种基于 muBoost 算法，使用多语言表示和分类器在 Moj 平台上检测 13 种印刷语言的恶意评论的解决方案，其 F1 得分达到 89.286，优于基线 MURIL 模型的 87.48。

Abstract

text classification is an integral part of many natural language processing tasks such as sarcasm detection, sentiment analysis and many more such applications. Many e-commerce websites, social-media/entertainmen

text classification natural language processing multilingual abusive comment identification sota performance

发现论文，激发创造

多语种社交媒体内容的毒性检测

本文描述了 'Moj Masti' 团队提出的系统，使用了 ShareChat/Moj 在 IIIT-D 多语言恶性评论识别挑战中提供的数据，重点介绍了如何利用多语言 Transformer 预训练和微调模型来处理混合代码 / 交替代码分类任务，最终在测试数据 / 排行榜上实现了平均 F-1 分数为 0.9 的最佳性能，并通过添加音译数据、集成和一些后处理技术进一步提高了系统的性能，从而将我们放在了排行榜的第一位。

Jan, 2022

改进基于数据引导的印度语恶意语言检测方法，提高低资源环境下的检测效果

本篇论文探讨针对印度尼西亚语多语种辱骂性言论的大规模分析，研究不同的语言转移机制及该领域的多语种模型的表现，同时探究此类模型对抗性攻击的能力，并进行了误判分析。

Apr, 2022

Optimize_Prime@DravidianLangTech-ACL2022: 满语中的辱骂评论检测

本文介绍了 Optimize_Prime 小组在 AC2022 项目中解决有限资源 Indic 语言中有害评论检测的方法，使用了集成模型，循环神经网络和 Transformer 等方法，并取得了不错的效果。

Apr, 2022

混合代码社交媒体文本中跨语言滥用识别

本文提出了一种针对多语言 Moj 数据集的辱骂识别方法，解决了非英语社交媒体内容中常见的混合码，音译和使用不同文字的额外挑战。

Mar, 2022

使用 Transformers 从多语代码混合文本中检测攻击性言论

本论文提出了一种多语言自动化系统，使用机器学习和转换器来从混合语言的数据中识别带有冒犯性的文本，并在 Tamil、Malayalam 和 Kannada 三种语言的数据集上进行了测试。结果表明，该系统在不同语言上表现出不同的最佳表现方法，得分最高的是 m-BERT（Kannada）和 XLM-R（Tamil 和 Malayalam），系统性能达到了一定的水平。

Feb, 2021

使用监督式机器学习和特征组合检测乌尔都语中的滥用和威胁性语言

本文介绍了参加 FIRE Shared Task 2021 的系统描述，该任务旨在自动识别乌尔都语中的滥用和威胁推文，结果显示支持向量机在去除停用词、应用词形还原、使用单词 n-grams (n = 1,2,3) 组合创建的特征矢量的条件下在滥用语言检测的任务上表现最佳，而在威胁语言检测的任务上，使用去除停用词、不应用词形还原、使用预训练的乌尔都语 Word2Vec 创建的特征向量，并使用过 - 采样技术使数据集平衡的支持向量机获得了最佳表现，本文的代码也可用于再现。

Apr, 2022

基于 Twitter BERT 的 Marathi 语攻击性语言检测方法

本文介绍了我们在印度低资源口语马拉地语中的 Offensive Language Identification 的工作，讨论了使用 BERT 模型进行文本分类任务以识别推文是否冒犯，比较了不同 BERT 模型在 HASOC 2022 测试集上的表现，包括从其他现有 Marathi 仇恨言论语料库 HASOC 2021 和 L3Cube-MahaHate 进行的扩充等，并且当将 MahaTweetBERT 模型在结合数据集（HASOC 2021 + HASOC 2022 + MahaHate）上进行微调时，其在 HASOC 2022 测试集上取得了 98.43 的 F1 得分，这也是 HASOC 2022 / MOLD v2 测试集的新最优表现。

Dec, 2022

马拉地语中仇恨言论检测和文本分类的单语和多语 BERT 案例研究

在本文中，我们使用 Marathi 语言的标准多语言模型和单语模型比较分析，通过五种不同的下游任务微调实验证明了单语 MahaBERT 模型的性能比多语言 BERT 变体更好。同时，我们还评估了来自这些模型的句子嵌入。

Apr, 2022

基于预训练语言模型检测社交媒体评论中的恐同和恐 Trans 现象

本文介绍了我们基于转换器模型的 LT-EDI 共享任务中用于检测社交媒体评论中的恐同和仇视跨性别内容的系统，使用 mBERT 等模型，并通过数据增强技术处理类别不平衡问题，代码已开源。在英语、泰米尔语和泰米尔语 - 英语子任务中，我们的排名分别为 9、6、3，宏平均 F1 得分为 0.42、0.64 和 0.58。

Mar, 2022

Mavericks 在 BLP-2023 任务 1 中：使用语言模型的基于合集的方法进行暴力煽动文本检测

本文介绍了我们在第一届孟加拉语语言处理研讨会的暴力煽动文本检测共享任务中的工作。针对社交媒体上的仇恨和暴力煽动性言论的传播加速，开发高效的机制来检测和遏制此类文本的传播至关重要。在资源匮乏的环境中，检测暴力煽动文本的问题更加严重，因为研究稀少且数据较少。共享任务提供的数据是孟加拉语文本，每个示例根据暴力煽动文本的类型被分类为三个类别之一。我们尝试评估了几个基于 BERT 的模型，然后使用模型集成作为我们的最终提交。我们的提交在最终排行榜上排名第 10，宏观 F1 得分为 0.737。

Nov, 2023