Jul, 2023

针对政策的仇恨言论测试

TL;DR本研究通过对 AI 系统与基于规则需求的深度神经网络的行为进行案例研究,对内容审核软件进行测试,发现当前具有高失败率的现有模型,进一步提出了一种自动化方法通过精调 OpenAI 的大型语言模型来增强 HateModerate 数据集。