Jan, 2024

通过思维链激励评估大型语言模型的性别偏见

TL;DR对于大型语言模型,通过链判断(Chain-of-Thought)激励可以在扩展任务上实现准确的增量预测,但其内化和复制社会偏见仍存在问题,因此需要对其在性别偏见上的影响进行研究。通过创建一个包含女性、男性和有性别意味的职业单词列表的非扩展任务用于构建一个评测基准,研究结果表明,大部分语言模型在不考虑链判断的情况下会做出带有社会偏见的预测,而链判断能够减少语言模型中的潜意识社会偏见,并促使公平的预测。