Apr, 2024

打破沉默:检测和减少印度在线空间中的性别虐待(印地语、泰米尔语和印度英语)

TL;DR在线性别基础骚扰是限制女性和边缘性别在数字空间中自由表达和参与的普遍问题。检测此类滥用内容可以使平台遏制这一威胁。我们参加了 ICON2023 举办的 Indic 语言中的性别虐待检测任务,该任务为构建分类器以识别带有性别偏见的滥用提供了英语、印地语和泰米尔语的注释 Twitter 帖子的数据集。我们的团队 CNLP-NITS-PP 开发了结合 CNN 和 BiLSTM 网络的集成方法,可以有效地建模文本数据中的语义和顺序模式。CNN 通过其应用于嵌入式输入文本的卷积滤波器捕捉到暴力语言的局部特征。为了确定基于上下文的冒犯性,BiLSTM 分析这个序列中单词和短语之间的依赖关系。我们为每种语言数据集训练了使用 FastText 和 GloVe 词嵌入的多种变体,其中包括超过 7600 个众包注释,涵盖了明确的滥用、针对少数群体的攻击和一般违规事项的标签。验证分数显示出强大的性能,特别是对于英语为 0.84。我们的实验证明了如何通过自定义嵌入和模型超参数来提高检测能力。该提议的架构在比赛中排名第一,证明其处理具有代码切换的现实世界嘈杂文本的能力。随着平台力图应对面临 Indic 语言互联网用户的网络骚扰,这种技术有着广阔的前景。我们的代码位于此 https URL。