BriefGPT.xyz
Oct, 2023
大型语言模型的道德基础
Moral Foundations of Large Language Models
HTML
PDF
Marwa Abdulhai, Gregory Serapio-Garcia, Clément Crepy, Daria Valter, John Canny...
TL;DR
本文通过使用道德基础理论分析研究已知的大型语言模型,发现它们存在特定的道德偏见,并展示了这些偏见与人类道德基础和政治倾向之间的关系。此外,研究还衡量了这些偏见的一致性,并证明了通过不同上下文的选择性引导可以影响模型在后续任务中的行为,从而揭示了大型语言模型承担特定道德立场的潜在风险和意外后果。
Abstract
moral foundations theory
(MFT) is a
psychological assessment tool
that decomposes
human moral reasoning
into five factors, including care/
→