关于在重复博弈中无法学习适应性合作策略的问题

Jun, 2022

关于在重复博弈中无法学习适应性合作策略的问题

On the Impossibility of Learning to Cooperate with Adaptive Partner Strategies in Repeated Games

Robert Loftin, Frans A. Oliehoek

TL;DR本研究旨在了解在没有特定假设的情况下，我们是否能可靠地学会与其他具有自适应行为的智能体合作，并得出一组不可能性结果，表明即使智能体保证与某些固定策略合作，也没有学习算法可以可靠地学习如何与所有可能的自适应伙伴合作；随后讨论了捕捉自适应伙伴只会理性地适应我们行为的潜在替代假设。

Abstract

learning to cooperate with other agents is challenging when those agents also possess the ability to adapt to our own behavior. Practical and theoretical approaches to learning in cooperative settings typically a

learning cooperation adaptive behavior impossibility results matrix game

发现论文，激发创造

学习与社会理性个体群体合作的复杂度

人工智能代理在现实世界中的部署需要与人类（以及其他异构的 AI 代理）可靠地合作。为了提供成功合作的形式化保证，我们必须对合作伙伴代理的行为做一些合理的假设。这项工作研究了在一个有限重复的、两个玩家的一般化总和矩阵游戏中与一个代理人群合作的问题，通过个体理性学习者的假设和在某个 Pareto 有效均衡策略下高概率实现至少与该策略相同效用，我们证明了这些假设本身不足以保证与目标人群成员的零 - shot 合作。因此，我们考虑了通过先前观察到的人群成员相互作用来学习与这样的人群合作的策略问题，并给出了学习有效合作策略所需样本数量的上限和下限。最重要的是，我们证明了这些界限可以比通过一种 “天真” 的问题简化到模仿学习中产生的界限更强。

Jun, 2024

合作人工智能

本研究探讨了人工智能和博弈论的交叉领域，通过设计自动学习规则和设置奖惩机制来实现良好的社会合作，致力于构建一个合作型人工智能的研究目标。

Feb, 2022

自适应算法和耦合协作

该研究基于连续时间技术提出了一个理论模型，旨在研究适应性学习算法之间的策略互动。通过揭示算法之间的自发耦合机制，该研究证明了人工智能算法之间存在的勾结现象，并提出了一种足以消除算法间自发耦合的充分条件，以及设计学习鲁棒性策略的机制所必要的回馈机制。

Feb, 2022

合作游戏的交互式逆强化学习

该研究探讨了如何设计自主智能体，使其在没有访问联合奖励函数的情况下能够有效地与潜在的次优合作伙伴进行合作。我们将这个问题建模为一个合作的、情节性的两个代理 Markov 决策过程。我们分析了该交互式两个代理场景中关于奖励函数的信息如何被获得，结果显示学习代理的策略对转移函数具有显著影响时，奖励函数可以被高效地学习。

Nov, 2021

透明对手之间的双人游戏学习

本文以两个强化学习代理经常在矩阵游戏中相互博弈作为情境，考虑透明性决策制定对于对手的预测及对手感知梯度步长能力，探究透明性决策制定与对手感知学习相结合能否在囚徒困境和鸡斗中取得可接受的收益等问题，发现透明性决策制定和对手感知学习的组合能对囚徒困境中的双方达成互惠合作。而在鸡斗场景中，由于平衡点的选择问题，需要进一步开发适合的对手感知学习算法。

Dec, 2020

通过多智能体强化学习解构合作与排斥

通过多代理强化学习模拟，我们发现网络重连有助于互相合作，即使一个代理人总是主动提供合作。此外，我们还发现排斥本身不足以促使合作出现，反而是通过合作的学习而出现，并且存在的合作因为排斥而得到加强。这些发现对于实现合作与网络重连的必要条件和机制提供了深入的见解。

Oct, 2023

竞争中的协同涌现

通过引入具有连续模拟物理的具有挑战性的竞争性多智能体足球环境，我们研究了加强学习智能体中合作行为的出现。我们演示了分散、基于人口的联合训练能够导致代理行为的进步：从随机的行为到简单的球追逐，最终呈现出合作的迹象。我们进一步应用了一个由博弈论原理支持的评估方案，可以在没有预定义评估任务或人类基准的情况下评估代理的性能。

Feb, 2019

序贯社交困境中的多智体强化学习

本文提出了顺序社会困境概念，以两种引入的马尔可夫博弈为例，分析了多个自利的独立学习智能体使用自己的 Deep Q-Networks 所学习的策略，同时展示了竞争如何导致冲突并阐明了真实世界社会困境的顺序性质如何影响合作。

Feb, 2017

自适应即时策略对接

本文提出了使用贝叶斯推断和 Gibbs 采样等技术来解决多智能体强化学习协作中的协调难题，以实现智能体对人类和其他智能体的有效交互，并在 Hanabi 这个复杂的纸牌游戏中表现出了强大的能力。

Mar, 2022

多人零和游戏中解决联盟困境的学习

本研究通过对称的零和矩阵游戏，证明了联盟形成可以被看作是一个社会困境，并且实证表明，在多代理强化学习中，天真的方法往往失败。同时，我们引入了点对点的合约机制来发现和执行联盟。最后，我们将我们的代理模型推广到了包括时间延伸合约的情况，并提出了进一步研究的机会。

Feb, 2020