Feb, 2024

自去偏大型语言模型:零样本识别和降低刻板印象

TL;DR本文介绍了一种零样本自我去偏见技术,通过解释和重提出两种方法,利用大型语言模型来降低刻板印象。我们展示了自我去偏见技术能够在不需要修改训练数据、模型参数或解码策略的情况下,减少九个不同社会群体的刻板印象程度,其中解释能够正确识别无效假设,重提出能够实现最大程度的偏见减少。我们希望本研究能够引发对其他零样本偏见减轻技术的探索。