深入探讨填词偏见社会倾向度量

Feb, 2023

In-Depth Look at Word Filling Societal Bias Measures

Matúš Pikuliak, Ivana Beňová, Viktor Bachratý

TL;DR本研究针对语言模型中的社会偏见问题，探讨使用词填充提示来评估语言模型行为的两种方法的有效性，发现当构建适当的控制组样本时，这些方法产生意外和不合逻辑的结果，因此应该重新考虑使用它们。我们提出了一种改进的测试协议，并介绍了一个斯洛伐克的性别偏见数据集。

Abstract

Many measures of societal bias in language models have been proposed in recent years. A popular approach is to use a set of word filling prompts to evaluate the behavior of the →