Jun, 2022

有害文本的特征:走向对语言模型严格基准测试

TL;DR大型语言模型生成的文本在越来越多的应用程序中表现得像人类一样,但是最近的文献和实际观察表明,这些模型可以生成有毒,偏见,不真实或有害的语言。本文提出了六种方式来表征有害文本,并应用于现有基准和案例研究,为有害文本的评估提供了有效的方法。