Feb, 2023

深入探讨填词偏见社会倾向度量

TL;DR本研究针对语言模型中的社会偏见问题,探讨使用词填充提示来评估语言模型行为的两种方法的有效性,发现当构建适当的控制组样本时,这些方法产生意外和不合逻辑的结果,因此应该重新考虑使用它们。我们提出了一种改进的测试协议,并介绍了一个斯洛伐克的性别偏见数据集。