ACLMay, 2024

GPT 不是一个标注器:在公平性基准构建中人工标注的必要性

TL;DR通过对社区调查的回应,探讨 GPT-3.5-Turbo 是否能够促进社会偏见标准数据集的开发任务,研究发现 GPT-3.5-Turbo 在此注释任务中表现不佳,产生了无法接受的质量问题,因此推断 GPT-3.5-Turbo 不适合在涉及社会偏见的敏感任务中代替人工标注,并且使用它实际上废除了社区资源偏见标准的许多好处。