通过遗憾最小化进行 AI 安全的辩论

Dec, 2023

通过遗憾最小化进行 AI 安全的辩论

AI safety by debate via regret minimization

Xinyi Chen, Angelica Chen, Dean Foster, Elad Hazan

TL;DR考虑使用辩论作为 AI 安全问题的重复博弈，研究在该情境下当玩家是 AI 或人类，且拥有超级 AI 计算能力时的高效后悔最小化问题，进一步阐述了达到相关均衡的策略序列的条件。

Abstract

We consider the setting of ai safety by debate as a repeated game. We consider the question of efficient regret minimization in this setti

ai safety debate regret minimization correlated equilibrium computational superiority

发现论文，激发创造

通过辩论实现人工智能安全

通过采用自我对弈的零和辩论游戏的方式来训练智能体，以此作为人类判断的替代，来实现 AI 系统对于复杂任务的精准输出，并讨论了辩论模型的理论和实践方面的问题。

May, 2018

通过双倍高效辩论实现可扩展的人工智能安全

通过设计一套新的辩论协议，本文展示了如何解决 AI 安全中的挑战，其中诚实策略能够使用多项式数量的步骤来成功模拟预训练 AI 系统，同时能够验证随机 AI 系统的对齐性，即使不诚实策略允许使用指数数量的模拟步骤。

Nov, 2023

负责任的人工智能（RAI）游戏与集合

通过对于不确定性集合的极小 - 极大问题进行研究，我们提供了一个被称为负责任人工智能（RAI）游戏的通用框架，并给出了两类算法来解决这些问题：基于游戏的算法和贪婪分阶段估计算法。我们通过实证方法证明了我们的技术在解决几个 RAI 问题，特别是在子群体转变方面的适用性和竞争性表现。

Oct, 2023

对抗无悔玩家

研究使用无遗憾算法在正态形式重复的 N 人博弈中，如何让人类玩家获得最大化效用，引入 Stackelberg 均衡和相关 Stackelberg 均衡的概念，证明玩家能够在每个回合至少保证相关 Stackelberg 期望值的效用。

Feb, 2022

在遗憾匹配中平衡自我博弈训练中角色的人工智能强度

通过引入 Regret Matching + 方法，训练一种通用模型来控制游戏中的任何角色，以实现人工智能在多角色游戏中的均衡性能。

Jan, 2024

一般和式马尔可夫博弈的遗憾最小化和均衡收敛

简而言之，本文提出了一种针对广义和博弈的、分散、计算高效的算法，其保证所有代理都使用时可以提供次线性遗憾保证，并且不需要代理之间的通信。该算法的主要观察结果是，通过马尔可夫游戏的在线学习基本上可以归结为一种加权遗憾最小化。

Jul, 2022

非凸博弈中高效的遗憾最小化

本文探讨了在非凸损失函数的重复博弈中如何最小化遗憾，并给出了基于梯度下降的方法来实现最优遗憾并保证收敛到平衡点。

Jul, 2017

遗憾最小化代理人之间的拍卖

本文研究一种情景，软件代理机器人实施后悔最小算法，代表他们的用户进行重复拍卖。研究一价和二价拍卖及其广义版本。使用理论分析和模拟，结果表明在二价拍卖中，玩家有激励向其自己的学习代理机器人提供不真实的估值，而在一价拍卖中，对于所有玩家真实报告其估值是一种占优策略。

Oct, 2021

人工智能安全性的具体问题再探讨

AI 安全的概念在社会中日益普及，AI 社区越来越关注 AI Safety 的概念，即防止在 AI 部署过程中系统行为意外偏离设计意图而导致的故障。通过分析真实案例，我们展示了当前的词汇虽然能够涵盖 AI 部署中遇到的一系列问题，但仍需要一个扩展的社会技术框架来更好地理解 AI 系统和实施的安全机制在现实生活中的成功与失败。

Dec, 2023

人工智能安全：通往末日的攀登？

AI 安全措施可能加剧而非减轻存在风险，对 AI 失败的不可避免性、失败点 AI 系统能力与伤害严重程度的预期相关性以及安全措施在失败前使 AI 系统更强大的倾向等核心假设提出负面预期效用。本文探讨了乐观主义、缓解和整体性三种应对策略，每种策略面临 AI 安全景观内固有特征所带来的挑战，例如瓶颈、完美障碍和平衡波动。该论点的意外稳健性迫使重新审视 AI 安全的核心假设，并指出了一些值得进一步研究的方向。

May, 2024