Jul, 2023

模型与铁皮人 —— 使用大型语言模型进行 AI 对齐中的委托 - 委托代理问题的行为经济学研究

TL;DRAI 对齐通常被认为是设计者和人工智能代理之间的互动,在这个互动中,设计者试图确保代理的行为与其目的保持一致,风险仅因设计者意图的效用函数与代理的内部效用函数之间的无意对齐冲突而产生。然而,我们认为,随着大型语言模型(LLMs)的出现,其中通常进行预训练,这种解释并没有捕捉到人工智能安全的关键因素,因为在现实世界中,设计者和代理之间并不存在一对一的对应,许多人工智能代理和人类具有异质的价值观,因此,AI 安全具有经济学上的一面,而且原则代理问题很可能出现。