Sep, 2023

使用基于提示的学习检测自然语言偏见

TL;DR在该项目中,我们探索了新兴的提示工程领域,并将其应用于检测语言模型偏见的下游任务。具体而言,我们研究如何设计能够指示 4 种不同类型偏见(性别、种族、性取向和基于宗教)的提示。我们在多个流行和公认的模型(BERT、RoBERTa 和 T5)的不同变体上应用这些提示来评估其偏见。我们提供了这些模型的比较分析,并采用两种方法进行评估:使用人的判断来决定模型预测是否存在偏见,并利用模型级别的判断(通过进一步的提示)来了解模型是否能够自我诊断其预测的偏见。