Jul, 2023
针对政策的仇恨言论测试
Testing Hateful Speeches against Policies
Jiangrui Zheng, Xueqing Liu, Girish Budhrani, Wei Yang, Ravishka Rathnasuriya
TL;DR本研究通过对 AI 系统与基于规则需求的深度神经网络的行为进行案例研究,对内容审核软件进行测试,发现当前具有高失败率的现有模型,进一步提出了一种自动化方法通过精调 OpenAI 的大型语言模型来增强 HateModerate 数据集。