Oct, 2024

镜子中的偏见:大型语言模型的观点是否对自身的对抗攻击稳健?

TL;DR本文针对大型语言模型(LLMs)在与自身对抗时的偏见稳健性进行研究,填补了以往研究的空白。我们提出了一种新方法,让两个LLM进行自我辩论,从而评估偏见的持久性及模型在误信息和有害观点转变中的脆弱性。实验结果揭示了偏见在不同语言和文化背景下的持久性和灵活性,具有重要的研究和应用价值。