AAAIDec, 2023

SocialStigmaQA: 揭示生成语言模型中的羞辱放大现象的基准测试

TL;DR通过对 93 个羞辱现象的分类和构建 QA 数据集来测试社会偏见扩大化对生成性语言模型的影响,发现这些模型生成的输出在很大程度上增加了对受羞辱群体的社会偏见,并且模板设计的选择和问题提示方式都会影响生成的社会偏见输出。