May, 2024
探索和引导大型语言模型的道德罗盘
Exploring and steering the moral compass of Large Language Models
TL;DR该研究对最先进的大型语言模型进行了综合比较分析,评估了它们的道德特性,发现专有模型主要以功利主义为基础,而开源模型更符合价值伦理学;另外,通过道德基础问卷,除了Llama 2外,所有被调查模型都显示出明显的自由主义偏见;最后,为了对其中一个研究模型进行因果干预,提出了一种新颖的相似性激活引导技术。通过该方法,可以可靠地引导模型的道德观达到不同的伦理学派别。所有这些结果表明,已经部署的大型语言模型存在一个常常被忽视的道德维度。