May, 2024

BiasKG: 用对抗知识图谱在大型语言模型中引入偏见

TL;DR现代大型语言模型拥有丰富的世界知识,可以在正确利用的情况下在常识推理和知识密集型任务方面取得强大的性能。然而,语言模型也能够学习社会偏见,可能对社会造成重大危害。本文提出了一种使用知识图谱增强生成模型的攻击语言模型的新方法,并采用敌对攻击策略诱导多个开源和闭源语言模型产生偏见性回应。我们发现我们的方法增加了所有模型的偏见,即使那些经过安全保护性训练的模型也是如此。这表明在 AI 安全领域需要进一步的研究,以及在这个新的敌对空间中的进一步工作。