Nov, 2023

大规模语言模型理解道德概念

TL;DR人工智能伦理学和公正性方面的研究已经在调节 LLMs 以反映公平、真实和多样性等价值方面取得了很大进展。然而,我们经常忽略了 LLMs 如何才能达到任何目的的问题。对此,我们提供了一个超越人类的意义的普遍理论,用于解释 LLMs 作为意义代理的精确性质。我们认为,LLM 由于其作为意义代理的地位,已经在概念上理解了人类社会的构建(例如道德、性别和种族)。因此,在某些伦理框架下,目前流行的模型对齐方法充其量是有限的,最糟糕的情况下是适得其反。此外,未对齐的模型可能有助于我们更好地发展我们的道德和社会哲学。