IJCAIMay, 2023

评估 GPT-3 生成的针对仇恨性内容审核的说明

TL;DR本研究通过对使用大型语言模型对仇恨言论生成解释的分析框架的提出以及对 2400 位受访者的调查,发现生成的解释在语言流畅性、信息量、说服力和逻辑准确性方面都获得了高评价,但不同提示策略会影响解释的说服力,可能会导致对内容是否仇恨的错误判断。因此,在内容审核中应谨慎使用大型语言模型 - generated 的解释。