开发一个多语言的女性仇恨和侵略性注释语料库
为了防止网络暴力和仇恨言论,本文通过对两个印度最流行的社交媒体平台 Twitter 和 Facebook 上的印地语 - 英语代码混合数据进行注释,开发出一套攻击标签集和注释语料库,以进行进一步的研究和防范。
Mar, 2018
通过分析 YouTube 上的 Hinglish 评论数据集,实施预处理和探索性数据分析技术,从情感评分和词云等角度对该数据集的特性进行了深入了解。
Mar, 2024
在线性别暴力与互联网和社交媒体的采用同时增长。它在全球多数国家尤其严重,因为许多用户使用的社交媒体语言不是英语。由于互联网上对话的规模和数量,需要自动检测仇恨言论,尤其是性别虐待。然而,目前缺乏特定语言和语境数据来构建这样的自动化工具。本文介绍了一个关于三种语言 (印地语、泰米尔语和印度英语) 中性别虐待的数据集。该数据集包括在南亚的自称是妇女或 LGBTQIA 群体成员的专家标注的推文,涉及到性别虐待的经历的三个问题。通过这个数据集,我们展示了一种参与性的方法来创建推动 AI 系统的数据集。
Nov, 2023
使用新颖的数据集开发方法,Biasly 数据集以与文献中独特的方式捕捉了对女性的厌恶的微妙之处。与多领域专家和标注员合作构建的数据集包含了电影字幕的标注,捕捉了北美电影中的口语表达对女性的厌恶。该数据集可用于各种 NLP 任务,包括分类、严重程度评分回归和文本重写的生成。在本文中,我们讨论了所使用的方法学,分析了获得的标注,并在对女性厌恶检测和缓解的背景下使用常见的 NLP 算法提供了基线。我们希望这项工作能促进 AI 在 NLP 中的社会价值,用于偏见检测、解释和消除。
Nov, 2023
本文介绍了在一个大型奥地利德语报刊评论中检测厌女情绪的工作,其中创建了一个包含 6600 个带有五个不同厌女程度注释的语料库,并描述了基于变换器的分类模型对该语料库进行二元分类和原始标签分类的结果。
Nov, 2022
在线性别基础骚扰是限制女性和边缘性别在数字空间中自由表达和参与的普遍问题。检测此类滥用内容可以使平台遏制这一威胁。我们参加了 ICON2023 举办的 Indic 语言中的性别虐待检测任务,该任务为构建分类器以识别带有性别偏见的滥用提供了英语、印地语和泰米尔语的注释 Twitter 帖子的数据集。我们的团队 CNLP-NITS-PP 开发了结合 CNN 和 BiLSTM 网络的集成方法,可以有效地建模文本数据中的语义和顺序模式。CNN 通过其应用于嵌入式输入文本的卷积滤波器捕捉到暴力语言的局部特征。为了确定基于上下文的冒犯性,BiLSTM 分析这个序列中单词和短语之间的依赖关系。我们为每种语言数据集训练了使用 FastText 和 GloVe 词嵌入的多种变体,其中包括超过 7600 个众包注释,涵盖了明确的滥用、针对少数群体的攻击和一般违规事项的标签。验证分数显示出强大的性能,特别是对于英语为 0.84。我们的实验证明了如何通过自定义嵌入和模型超参数来提高检测能力。该提议的架构在比赛中排名第一,证明其处理具有代码切换的现实世界嘈杂文本的能力。随着平台力图应对面临 Indic 语言互联网用户的网络骚扰,这种技术有着广阔的前景。我们的代码位于此 https URL。
Apr, 2024
社交媒体上有毒内容的普及,如仇恨言论、冒犯性语言和厌女症,已经引起了自然语言处理领域的广泛关注。本文介绍了首个阿拉伯语厌女症识别任务的提交系统,并研究了基于预训练 MARBERT 语言模型的多任务学习模型和单任务对应模型。而所有提交的模型在厌女症识别和分类任务中都取得了最佳表现(排名前三)。
Jun, 2022
测量自然语言生成中的厌恶问题,并认为通用的 ' 有害性 ' 分类器对此任务不足够。使用 reddit 上的两个 'Incel' 社区的数据来构建训练语料库,我们通过精调两个语言模型表明,某个开源的 ' 有害性 ' 分类器无法区分这些模型的生成结果,而最近由女权主义领域专家提出的具有厌恶特定词汇索引的方法可以作为对厌恶评估的基准,可以揭示这些 Reddit 社区之间已知的差异。我们的初步研究结果凸显了评估伤害的通用方法的局限性,并进一步强调在自然语言评估中需要仔细选择和设计基准。
Dec, 2023
使用 CREENDER 开发了一个注释工具,用于创建图像和滥用评论的多模态数据集,该数据集在不同角度被分析,发现图像中是否存在人会增加触发攻击性评论的概率。
May, 2020
本文提供了一项声学分析的研究,旨在讨论政治言论中的声学特征,以及利用该研究开发出的用于识别英语和印地语言中侵略性的自动分类系统。我们训练的分类器使用了超过 50 小时的注释语音,已经取得了超过 73% 到 66% 不同的准确率,在此我们还将讨论分类器的误差。
Apr, 2022