EMNLPSep, 2021

清洗语言模型中的挑战

TL;DR我们探讨了一些减轻大型语言模型毒性的策略,并分析了这些策略对模型偏差和质量的影响。我们发现:虽然基本的干预策略可以有效地优化先前建立的自动指标,但这是以减少有关边缘化团体的文本和方言的语言模型覆盖率的代价。同时,我们还发现,在强减毒干预之后,人类评分员通常不会同意高自动毒性得分 - 这进一步凸显了仔细评估语言模型毒性涉及到的微妙之处。