模型与铁皮人 —— 使用大型语言模型进行 AI 对齐中的委托 - 委托代理问题的行为经济学研究

Jul, 2023

模型与铁皮人 —— 使用大型语言模型进行 AI 对齐中的委托 - 委托代理问题的行为经济学研究

Of Models and Tin Men -- a behavioural economics study of principal-agent problems in AI alignment using large-language models

PDF

Steve Phelps, Rebecca Ranson

TL;DRAI 对齐通常被认为是设计者和人工智能代理之间的互动，在这个互动中，设计者试图确保代理的行为与其目的保持一致，风险仅因设计者意图的效用函数与代理的内部效用函数之间的无意对齐冲突而产生。然而，我们认为，随着大型语言模型（LLMs）的出现，其中通常进行预训练，这种解释并没有捕捉到人工智能安全的关键因素，因为在现实世界中，设计者和代理之间并不存在一对一的对应，许多人工智能代理和人类具有异质的价值观，因此，AI 安全具有经济学上的一面，而且原则代理问题很可能出现。

Abstract

ai alignment is often presented as an interaction between a single designer and an artificial agent in which the designer attempts to ensure the agent's behavior is consistent with its purpose, and risks arise so

ai alignment artificial agent principal-agent problem utility function information asymmetry

发现论文，激发创造

上下文中的对齐问题

当前的大型语言模型仍然容易受到对抗攻击，使其表现出不安全的行为，这一基本问题不仅对当前的人工智能系统尚未解决，而且在不严重削弱其能力的情况下可能难以解决，同时也对未来和更具能力的人工智能系统的安全性提出了担忧。

Nov, 2023

衡量代理之间的错位

通过应用争论模型分析不同领域的案例研究，本研究旨在解决 AI 对齐问题中复杂的利益冲突，为 AI 工程师确保系统最大程度地与多样化的人类利益对齐提供了有代表性的价值数据。

Jun, 2024

目标一致性：价值对齐问题的人类意识解释

AI 中的价值对齐问题源于 AI 代理的指定目标与其用户的真正基础目标不匹配。本文提出了一种名为目标对齐的新价值对齐问题公式，并提出了一种交互式算法，用于确定用户的真正基础目标。

Feb, 2023

人工智能和双重合同

本研究通过实验研究 AI 算法在双重委托代理问题的双重合同模型中的行为，发现 AI 算法可以自主学会设计可以激励合规的合同，而在合同中，一方可以采取勾结或竞争等多态行为，而且欺骗行为似乎并不存在于制定的合同中。

Mar, 2023

意图一致的 AI 系统削弱人类代理能力：AI 安全需要代理基础研究

为了确保人工智能系统的安全性和长期代理的保留，应该将人工智能系统设计为优先考虑代理的保留而不是人类意图的一致性，并且应该在 “代理基础” 领域进行研究，以改进我们对人工智能与人类交互中代理的理解。

May, 2023

不完全契约和人工智能对齐

运用法律和经济学领域的不完全契约理论可为理解 AI 对齐问题提供框架，并提出了一种集中于如何构建能够复制人类认知过程的 AI 以连接个体不完全合同与外部支持结构的研究议程。

Apr, 2018

AI 对准逆悖论

AI 对齐存在悖论：我们越好地将 AI 模型与我们的价值观相一致，就越容易让对手使模型不一致。为确保人类福祉，必须确保广泛研究者共同意识到 AI 对齐悖论，并努力寻求突破途径。

May, 2024

人工智能安全中的具体问题

讨论机器学习与人工智能技术对社会潜在影响的一个问题：机器学习系统中的意外事故风险和如何抵御。我们提出了五个与事故风险相关的实际研究问题，涉及到错误的目标函数、过于昂贵的监督、安全探索和分布变化等方面。最后，思考了如何更具生产力地思考人工智能前瞻性应用的安全问题。

Jun, 2016

社会契约 AI：将 AI 助理与隐含的团体规范进行一致化

模拟框架中，研究通过反转模型来对齐 AI 助手与用户的偏好，并发现 AI 助手在经济最终决策游戏中能够准确对齐行为，但其学习的策略在未包含的情况下缺乏稳健性和普适性，并且发现语言使用与未知策略之间存在不一致时，学习策略的速度会减慢。

Oct, 2023

预测模型模拟的代理限制

适应预测模型为基础的 AI 助手存在结构上的两个失败原因：自我暗示的错觉和预测 - 策略不一致。通过引入来自环境的反馈循环可以解决这两个问题，并验证了理论和实证分析的一致性。

Feb, 2024