Nov, 2024

HateDay:全球仇恨言论数据集的洞察

TL;DR本研究针对在线仇恨言论的检测性能在现实场景中存在的系统偏差问题,提出了HateDay,一个代表社交媒体设置的全球仇恨言论数据集,基于2022年9月21日发布的所有推文随机抽样。研究发现,现有学术数据集的评估方法高估了实际检测性能,尤其在非欧洲语言上表现较差,强调了未来检测模型在真实环境中评估的重要性。