Dec, 2022
语言模型中对陈规的理解:朝着鲁棒度量和零-shot 去偏见的方向
Understanding Stereotypes in Language Models: Towards Robust Measurement
and Zero-Shot Debiasing
TL;DR本文研究了预训练语言模型的生成文本中存在的人类偏见和其对不同人口群体的影响,针对现有的评估技术和基准的准确性问题,提出了新的评估框架以更稳健地测量和量化语言模型所表现出的偏见。并使用该框架调查了GPT-3的职业性别偏见,并提出了一些缓解这些偏见的提示技术。