Jul, 2023

评估 LLM 中所包含的道德信念

TL;DR本论文通过大规模语言模型的调查研究案例来介绍了一种用于获取编码在语言模型中的信念的统计方法,并应用此方法研究了不同语言模型中编码的道德信念,特别是在选择不明显的模棱两可情况下。这项研究设计了一项大规模调查研究,包含了 680 个道德情景(如 “我应该说一个善意的谎言吗?”)和 687 个明确的道德情景(如 “我应该在路上停车让行人通过吗?”),并对 28 个开放和闭源语言模型进行了调查。结果发现,在明确的情景中,大多数模型选择与常识一致的行动,而在模棱两可的情况下,大多数模型表达了不确定性,并且部分模型对问题的方式非常敏感,同时一些模型在模糊情景中反映出明确的偏好,尤其是闭源模型之间的一致性较高。