Mar, 2024

人类价值是什么,我们如何使人工智能与之相吻合?

TL;DR通过道德图表法,本文研究如何合成不同的人类价值观输入,以对齐语言模型的行为,并通过在 500 名代表性美国人身上试验证明了其有效性。