Oct, 2023

大型语言模型的道德基础

TL;DR本文通过使用道德基础理论分析研究已知的大型语言模型,发现它们存在特定的道德偏见,并展示了这些偏见与人类道德基础和政治倾向之间的关系。此外,研究还衡量了这些偏见的一致性,并证明了通过不同上下文的选择性引导可以影响模型在后续任务中的行为,从而揭示了大型语言模型承担特定道德立场的潜在风险和意外后果。