策略优化在正则化广义和 LQ 博弈中找到纳什均衡

Mar, 2024

策略优化在正则化广义和 LQ 博弈中找到纳什均衡

Policy Optimization finds Nash Equilibrium in Regularized General-Sum LQ Games

Muhammad Aneeq uz Zaman, Shubham Aggarwal, Melih Bastopcu, Tamer Başar

TL;DR研究引入相对熵正则化对 General-Sum $N$-agent games 的 Nash Equilibria 的影响，揭示了该类游戏的 NE 符合线性高斯策略。此外，本文提出了符合熵正则化充分条件的 NE 唯一性，并证明了在 Policy Optimization 算法中线性收敛性，该算法在熵正则化充分条件下能达到 NE。此外，在熵正则化不足的情况下，我们还提出了一种 δ 增强技术，可实现游戏中的 ε-NE。

Abstract

In this paper, we investigate the impact of introducing relative entropy regularization on the nash equilibria (NE) of General-Sum $N$-agent games, revealing the fact that the NE of such games conform to linear Gaussian policies. Moreover, it delineates sufficient conditions, contingen

relative entropy regularization nash equilibria linear gaussian policies policy optimization reinforcement learning

发现论文，激发创造

通过熵正则化的策略逼近学习零和随机博弈中的纳什均衡

通过使用策略近似来减少学习零和随机博弈的纳什均衡的计算成本，我们提出了一种新的 Q-learning 类型算法，该算法使用一系列经过熵正则化的软策略来近似 Q 函数更新期间的纳什策略。我们证明，在某些条件下，通过更新正则化的 Q 函数，该算法收敛于纳什平衡，并演示了该算法快速适应新环境的能力。提供一种动态超参数调度方案来进一步加快收敛速度。应用于多个随机游戏的实证结果验证了所提出的算法收敛于纳什平衡，同时展现了比现有算法更快的加速效果。

Sep, 2020

具有熵正则化的独立自然策略梯度在游戏中的线性收敛

这项研究主要关注多智能体强化学习中的熵正则化独立自然策略梯度算法，通过引入熵正则化实现有界理性的决策，从而使智能体的行为接近纳什均衡，并通过实证结果验证了理论分析的可靠性。

May, 2024

具有熵正则化的竞争性游戏的快速策略外推方法

本文研究了竞争性游戏的均衡计算问题，提出了一种通过熵正则化实现的解法，可以在线性速率下找到量子反应均衡，并且可以实现分散式迭代更新，同时还可以在亚线性速率下找到非正则矩阵博弈的纳什均衡和解决零和 MDP。

May, 2021

策略优化在零和线性二次博弈中可以证明收敛到纳什均衡

研究线性二次游戏中政策优化寻找纳什均衡的全局收敛性，开发了三种投影嵌套 - 梯度方法并给出了满意的收敛性证明和模拟结果，是对零和 Markov 博弈政策优化强化学习算法理论方面的探索。

May, 2019

熵对策略优化的影响理解

本文研究了使用熵正则化提高强化学习策略优化的方法，探讨了高熵策略能使得优化过程更为平滑，从而帮助穿过局部优化点，但挑战在于设计通用的策略优化算法。

Nov, 2018

自然策略梯度方法在熵正则化下的快速全局收敛

为了证明策略优化算法的收敛性，本篇论文开发出了一种新的方法，该方法使用非统计方法提供了 $ extit {非渐进}$ 收敛保证，并专注于受 softmax 参数化限制的比例调节的策略梯度算法，重点是折扣的马尔可夫决策过程。实验证明，该算法在逼近正则化 MDP 的最优价值函数时，收敛呈线性或甚至二次收敛速度，考虑到算法的稳定性，收敛结果适应了广泛的学习速率，并阐明了熵正则化在实现快速收敛方面的作用。

Jul, 2020

带熵正则化自然策略梯度和线性函数逼近的线性收敛

论文分析了在函数逼近情况下，通过 softmax 参数化的熵正则化 NPG 方法，证明了该方法收敛速度为 O (1/T) 且表现出线性收敛特性，在正则化 MDP 中不需要对策略进行任何先验假设。

Jun, 2021

熵正则化马尔科夫决策过程的统一视角

提出一种针对 Markov 决策过程的熵正则化平均回报强化学习的一般性框架，通过使用条件熵来对联合状态 - 动作分布进行正则化，将一些先进的熵 - 正则化强化学习算法形式化为 Mirror Descent 或 Dual Averaging 的近似变体，并在简单的强化学习实验中展示了各种正则化技术对学习性能的影响。

May, 2017

带熵正则化的线性二次调节器快速策略学习

该研究提出并分析了两种新的策略学习方法：正则化策略梯度（RPG）和迭代策略优化（IPO），用于一类基于无限时间地奖励折扣的线性二次调节器（LQR）问题，该问题通过熵正则化进行优化。在假设能够准确评估策略的情况下，这两种方法都被证明在找到正则化 LQR 的最佳策略时具有线性收敛性。此外，一旦进入最佳策略周围的局部区域，IPO 方法可以实现超线性收敛率。最后，当将来自已知环境中的 RL 问题的最佳策略适当转移为未知环境中的 RL 问题的初始策略时，如果后者与前者足够接近，则 IPO 方法可以实现超线性收敛率。通过数值示例支持这些提出的算法的表现。

Nov, 2023

提高熵以提升个性化任务的政策梯度性能

基于策略梯度的强化学习代理为了多样性，探究了正则化对行动多样性的影响，并通过实验结果证明了多样性促进的策略正则化在个性化任务的性能提升方面具有显著优势，同时不损失准确性。

Oct, 2023