BriefGPT.xyz
Feb, 2023
深入探讨填词偏见社会倾向度量
In-Depth Look at Word Filling Societal Bias Measures
HTML
PDF
Matúš Pikuliak, Ivana Beňová, Viktor Bachratý
TL;DR
本研究针对语言模型中的社会偏见问题,探讨使用词填充提示来评估语言模型行为的两种方法的有效性,发现当构建适当的控制组样本时,这些方法产生意外和不合逻辑的结果,因此应该重新考虑使用它们。我们提出了一种改进的测试协议,并介绍了一个斯洛伐克的性别偏见数据集。
Abstract
Many measures of
societal bias
in
language models
have been proposed in recent years. A popular approach is to use a set of word filling prompts to evaluate the behavior of the
→