謹言慎語:用於混合語言的濫用與冒犯檢測
在线性别基础骚扰是限制女性和边缘性别在数字空间中自由表达和参与的普遍问题。检测此类滥用内容可以使平台遏制这一威胁。我们参加了 ICON2023 举办的 Indic 语言中的性别虐待检测任务,该任务为构建分类器以识别带有性别偏见的滥用提供了英语、印地语和泰米尔语的注释 Twitter 帖子的数据集。我们的团队 CNLP-NITS-PP 开发了结合 CNN 和 BiLSTM 网络的集成方法,可以有效地建模文本数据中的语义和顺序模式。CNN 通过其应用于嵌入式输入文本的卷积滤波器捕捉到暴力语言的局部特征。为了确定基于上下文的冒犯性,BiLSTM 分析这个序列中单词和短语之间的依赖关系。我们为每种语言数据集训练了使用 FastText 和 GloVe 词嵌入的多种变体,其中包括超过 7600 个众包注释,涵盖了明确的滥用、针对少数群体的攻击和一般违规事项的标签。验证分数显示出强大的性能,特别是对于英语为 0.84。我们的实验证明了如何通过自定义嵌入和模型超参数来提高检测能力。该提议的架构在比赛中排名第一,证明其处理具有代码切换的现实世界嘈杂文本的能力。随着平台力图应对面临 Indic 语言互联网用户的网络骚扰,这种技术有着广阔的前景。我们的代码位于此 https URL。
Apr, 2024
本篇论文探讨针对印度尼西亚语多语种辱骂性言论的大规模分析,研究不同的语言转移机制及该领域的多语种模型的表现,同时探究此类模型对抗性攻击的能力,并进行了误判分析。
Apr, 2022
我们的研究探讨了恶意言论检测领域,特别关注孟加拉语、阿萨姆语和古吉拉特语这三种资源匮乏的印度语言。我们通过 HASOC 2023 数据集对预训练的 BERT 和 SBERT 模型进行微调,评估它们在恶意言论识别中的有效性。研究发现,单语句 BERT 模型表现出卓越的优势,特别是在孟加拉语方面表现最佳。然而,阿萨姆语和古吉拉特语的性能仍有改进的机会。我们的目标是通过打击恶意言论的泛滥来促进包容性的在线空间。
Oct, 2023
通过创建一组包含滥用言论 / 反言论对的基准数据集,我们在低资源语言(例如孟加拉语和印地语)中使用多种不同配置的基准模型进行测试,观察到单语言设置提供了最佳性能,并发现同属于相同语言家族的语言之间的转移性较好。
Feb, 2024
本文探讨了训练神经网络进行印地语和孟加拉语仇恨言论识别的方法,以及如何应用迁移学习来学习这些类似的语言。该实验的结果与其他更昂贵的模型相比具有可比性。此外,由于使用的训练数据相对较少,且这两种语言对我们来说几乎是完全未知的,因此该研究可推广为一个解密人类无法理解的失落或陌生语言的努力。
Jan, 2022
该研究在五种不同语言中展开了对仇恨言论的广泛比较分析,使用多种预训练模型评估其在这些语言中识别仇恨言论的性能,并为多语言环境下构建强大的仇恨言论检测系统提供了有益的见解。
Dec, 2023
本文介绍了一种利用 CNN 和 LSTM 模型处理图像和文本的二元信道模型,用于检测由多模态数据组成的具有仇恨和攻击性的内容,针对由代码切换的语言组成的文本部分的印度政治 Memes 数据集进行了研究。
Apr, 2022
针对社交媒体中存在的多语言仇恨言论,本文提出了一种针对多语言仇恨言论模型的功能集,被用于对现有模型的诊断分析。通过以印地语为基础语言,构建了 HateCheckHIn 评估数据集,测试了最先进的基于 Transformer 的 m-BERT 模型以及 Perspective API。
Apr, 2022
研究发现,针对社交媒体文本中的混合编码文本进行专门设计的双语模型和多语模型表现最佳,而庞大生成模型则不具有竞争力。对于情感分析和辱骂语言检测等任务,这些模型在混合编码数据上的表现稍微优于非混合编码数据。
May, 2024
本研究针对 Bengali 等低资源语言在社交媒体上的仇恨言论进行研究,开发了一个定量数据集并建立了基线模型和一些额外的方法以更好地进行分类。在分析误分类之后,我们确认 XLM-Roberta 在单独训练 actual 或 rominized 数据集时表现最好。而在联合训练和小样本训练中,MuRIL 通过更好地解析语义表达比其他模型表现更优秀。
Oct, 2022