Nov, 2023

Uli 数据集:基于经验驱动的 oGBV 注释练习

TL;DR在线性别暴力与互联网和社交媒体的采用同时增长。它在全球多数国家尤其严重,因为许多用户使用的社交媒体语言不是英语。由于互联网上对话的规模和数量,需要自动检测仇恨言论,尤其是性别虐待。然而,目前缺乏特定语言和语境数据来构建这样的自动化工具。本文介绍了一个关于三种语言 (印地语、泰米尔语和印度英语) 中性别虐待的数据集。该数据集包括在南亚的自称是妇女或 LGBTQIA 群体成员的专家标注的推文,涉及到性别虐待的经历的三个问题。通过这个数据集,我们展示了一种参与性的方法来创建推动 AI 系统的数据集。