优势对准算法

Jun, 2024

Advantage Alignment Algorithms

Juan Agustin Duque, Milad Aghajohari, Tim Cooijmans, Tianyu Zhang, Aaron Courville

TL;DR人工智能代理、冲突、对手塑造、优势对齐和社会困境是该研究论文的主要关键词和研究领域，通过引入优势对齐方法，该论文证明了对手塑造方法的效果，并在不同情况下取得了最先进的结果。

Abstract

The growing presence of artificially intelligent agents in everyday decision-making, from LLM assistants to autonomous vehicles, hints at a future in which conflicts may arise from each agent optimizing individua

artificially intelligent agents conflicts opponent shaping advantage alignment social dilemmas

发现论文，激发创造

可微分游戏中的稳定对手塑造

该论文提出了稳定对手塑造方法，该方法通过插值实现了区分对手学习（LOLA）和稳定对手塑造的最佳属性，并在可微分游戏中表现出卓越的性能。

Nov, 2018

对抗学习感知的学习

LOLA 是一种用于多智能体学习的方法，在 agent 间显式地考虑其他 agent 的学习，以达到识别和利用合作的目的。

Sep, 2017

LOQA：带有对手 Q 学习意识的学习

本文介绍了一种名为 LOQA 的分布式强化学习算法，用于在部分竞争环境中优化代理个体效用并促进对手之间的合作，在统一代理应用中取得了良好的性能。

May, 2024

通过两人博弈实现最佳 LLM 对齐

通过两个代理人之间的迭代互动，通过生成展现防御代理人弱点的提示并根据奖励模型的反馈改进回应，本文在安全场景中理论上证明了这种反复强化学习优化会收敛到由代理人引发的博弈的纳什均衡，并实验证明了在这样竞争环境中的学习不仅可以充分训练代理人，而且还可以提高对抗性和防御性代理人的泛化能力。

Jun, 2024

利用优势引导的策略对齐对语言模型进行微调

本研究提出了一种新算法 APA，利用估计的优势建立基于平方误差损失函数的算法进行优化，证明在使用单独的奖励模型作为评估器时，APA 明显优于 PPO，并且在控制模型初始策略与改进性能之间提供更稳定的形式控制，避免了模式崩溃、不稳定性和样本效率低等问题。

Jun, 2023

引领先锋: N 人对手塑形

通过扩展对手塑形方法（OS）以适应涉及多个合作玩家和多个塑形代理的环境，我们评估了 4 个不同环境，并发现模型为基础的对手塑形方法相对于天真学习方法能够收敛到具有更好全局获益的均衡点，然而，当与大量合作玩家进行游戏时，对手塑形方法的相对性能会降低，这表明在极限情况下，对手塑形方法可能表现不佳，并且我们发现在需要大多数合作代理的游戏中，OS 方法收敛到全局福利较低的结果。

Dec, 2023

COLA: 具有对手感知的一致学习

通过在 LOLA 算法中引入一种方法称为 Consistent LOLA，其中学习更新功能在彼此影响时保持一致，作者在广义和游戏模型中进行了一系列实验，发现这种方法比 HOLA 和 LOLA 更容易收敛，并能够找到更加符合社会期望的解决方案。

Mar, 2022

最佳响应塑造

在部分竞争环境中，我们研究了多智能体深度强化学习的挑战，传统方法难以促进基于互惠合作的行为。为解决现有技术中的局限性，我们提出了一种新的方法 —— 最佳回应塑造（BRS），通过对手的求解最佳回应进行差分学习。利用基于问题回答的方法提取智能体在特定环境状态下的行为表示，引入了一种能够对复杂博弈中的智能体策略进行状态感知可微的条件机制。通过实验证明了我们的方法在与蒙特卡洛树搜索对手（在 Coin Game 中近似最佳回应）对抗时具有更好的性能，从而拓展了部分竞争环境中多智能体强化学习的适用性，并为实现总和博弈中社会福利的改善提供了新的路径。

Apr, 2024

无模型对手塑形

本文提出了一种名为 Model-Free Opponent Shaping（M-FOS）的方法，利用元学习在长周期博弈下进行对手塑造，解决通过算法塑造对手进行博弈中的困境，实验表明该方法在训练中充分利用其他算法，达到了社会最优结果，同时还能扩展到高维博弈场景。

May, 2022

透明对手之间的双人游戏学习

本文以两个强化学习代理经常在矩阵游戏中相互博弈作为情境，考虑透明性决策制定对于对手的预测及对手感知梯度步长能力，探究透明性决策制定与对手感知学习相结合能否在囚徒困境和鸡斗中取得可接受的收益等问题，发现透明性决策制定和对手感知学习的组合能对囚徒困境中的双方达成互惠合作。而在鸡斗场景中，由于平衡点的选择问题，需要进一步开发适合的对手感知学习算法。

Dec, 2020