游戏中的突变偏好学习

May, 2024

Mutation-Bias Learning in Games

Johann Bauer, Sheldon West, Eduardo Alonso, Mark Broom

TL;DR我们提出了基于进化博弈理论考虑的两种多智能体强化学习算法的变体。一个变体的有意简化使我们能够证明它与一类常微分方程系统的复制子 - 变异体动力学的关系，从而通过它的常微分方程对应项在各种环境中展示了该算法的收敛条件。相较于更复杂的算法，另一个更复杂的变体允许与 Q 学习算法进行比较。我们在一系列环境中通过实验将这两个变体与 WoLF-PHC 和频率调整的 Q 学习进行比较，展示了我们的变体在维度增加的情况下保持收敛性的实例与更复杂算法的对比。解析结果的可用性相对于纯经验案例研究提供了一定的可转移性，展示了在处理收敛性和可靠的推广问题时，动力系统视角对多智能体强化学习的普适性。

Abstract

We present two variants of a multi-agent reinforcement learning algorithm based on evolutionary game theoretic considerations. The intentional simplicity of one variant enables us to prove results on its relationship to a system of ordinary differential equations of →

multi-agent reinforcement learning evolutionary game theory replicator-mutator dynamics convergence conditions dynamical systems perspective

发现论文，激发创造

多智体系统学习动态的耦合复制方程

本文探讨了强化学习代理群体的复制者方程，证明基于环境反应的互动，代理们以自私的方式建模自己的环境，从而自然地出现游戏动力学，针对石头剪刀布游戏的应用证明了群体学习动力学具有多种多样的竞争和合作行为，包括准周期性，稳定极限环，间歇性和确定性混沌 – 这些行为在由我们导出的广义重复子方程描述的异质多智能体系统中应该得到预期。

Apr, 2002

进化博弈理论平方：自发演化的零和博弈中的进化代理

本文研究了一类竞争场景，其中代理和它们玩的游戏都在时间上演化。该系统中的信息论保存定律、泊松回归和 Nash 均衡特征表明，尽管代理和游戏共同演化，但其结果仍然遵循一定的规律。同时，针对这种共同演化的网络游戏提出了预测代理行为的多项式时间算法。

Dec, 2020

广义博弈中的高效进化动力学

本文提供了首个可适用于广义博弈顺序形式的复制动态系统，相较于现有的复制动态系统可以使时间和空间指数级降低，并证明了在离散时间和连续时间情况下的结果，同时拓展了标准工具以研究策略配置的稳定性。

Apr, 2013

动态人口博弈中的学习与效率

研究动态变化的人群中使用学习算法适应变化环境的重复博弈的质量，证明了如果玩家以一种保证低自适应遗憾的方式选择策略，则在许多种类的游戏中，即使变化非常频繁，也可以确保高社会福利，这一点比以前的工作更具现实意义。

May, 2015

多智能体 Q 学习动态的渐近收敛与性能

本论文研究了探索 - 利用困境下的平滑 Q 学习动态，并提出了一个探索速率的充分条件，使得该方法在任何游戏中都能收敛到唯一的均衡，这一结果适用于权重势博弈和权重零和多矩阵游戏。论文还比较了 Q 学习动态和实现均衡所能达到的社会福利，提供了一种充分条件，即使动态不收敛，Q 学习动态仍能超过均衡。

Jan, 2023

用简单的进化思想辅助基于梯度的强化学习

我们提出了一种简单而有效的强化学习算法，通过使用进化算子在强化学习中引入大的有向学习步骤，并使用具有共同经验缓冲区的强化学习代理人种群进行训练，从而有效地搜索策略空间。

May, 2023

定向进化和生态 - 进化动力学的生物物理控制论

本论文提出了 Taak-duality，一种将生态和基因型 / 表型类型都考虑在内的术语，并利用这种等价关系研究了高度一般化类型的生态进化轨迹，分析了有向进化的效率潜在限制。

May, 2023

诚实自博弈

提出了一种基于进化学习的框架，利用机制设计中的对等预测方法添加虚拟奖励，使多智体强化学习任务中的智能体能够达成合作，从而实现了无偏见状态表示的学习。在猎食者 - 被猎物，红绿灯和星际争霸等任务中，框架的表现达到了最先进水平。

Jun, 2021

游戏中的罚款调节动态与强韧学习程序

通过一种启发式的学习方案，我们派生出了一种由惩罚项调整的复制者漂移的新类连续时间学习动态，这种惩罚调节的动态相当于玩家保留他们正在进行的回报的指数折扣总和，然后基于这些表现分数使用平滑最佳响应选择行动。借助这种内在的对偶，所提出的动态满足一种进化博弈理论的民间定理的变体，并且它们以（任意精度的）纳什均衡的逼近收敛于潜在游戏。受到交通工程应用的启发，我们进一步利用这种对偶来设计离散时间的，基于回报的学习算法，该算法具有这些收敛性质，并且仅需要玩家观察他们在游戏中的回报

Mar, 2013

演化博弈理论在多智能体路径规划中的应用

本文探讨了一种基于进化博弈论思想的解决方法来解决一组同质且自主代理在未知且随机环境中的路径规划问题，研究了多智能体规划方法，并展示了我们的技术在大空间中最小化路径长度方面击败了现有的状态良好的强化学习算法近 30%，并且比深度强化学习方法快至少一个数量级，并且与其他方法相比，扩展性更好，最后，我们证明了我们学到的政策在演化上是稳定的。

Dec, 2022