Feb, 2024

GPT-HateCheck:LLM能否为仇恨言论检测编写更好的功能性测试?

TL;DR在线仇恨检测中存在由数据采样、标注和模型预训练导致的偏见。本研究提出了GPT-HateCheck框架,通过指导大型语言模型自动生成更多样化和真实的功能测试用例来解决现有数据集的限制,并以众包注释验证生成的测试用例质量,从而发现使用原始HateCheck数据集时可能忽视的模型弱点。