使用软 Q 学习平衡双人随机博弈
通过研究充分考虑游戏奖励和探索成本平衡的原型学习模型 Q-learning,我们证明在使用积极探索率的具有异质性学习代理的权重零和多元矩阵游戏中,Q-learning 总是收敛于唯一的量刑 - 反应均衡(QRE),这是有界理性下游戏的标准解决方案概念,并展示了 Q-learning 在竞争环境中的快速收敛性,而无需任何参数微调,在竞争多代理环境中的均衡选择问题提供了算法所需的保证。
Jun, 2021
通过使用策略近似来减少学习零和随机博弈的纳什均衡的计算成本,我们提出了一种新的 Q-learning 类型算法,该算法使用一系列经过熵正则化的软策略来近似 Q 函数更新期间的纳什策略。我们证明, 在某些条件下,通过更新正则化的 Q 函数,该算法收敛于纳什平衡,并演示了该算法快速适应新环境的能力。提供一种动态超参数调度方案来进一步加快收敛速度。 应用于多个随机游戏的实证结果验证了所提出的算法收敛于纳什平衡,同时展现了比现有算法更快的加速效果。
Sep, 2020
本论文研究了探索 - 利用困境下的平滑 Q 学习动态,并提出了一个探索速率的充分条件,使得该方法在任何游戏中都能收敛到唯一的均衡,这一结果适用于权重势博弈和权重零和多矩阵游戏。论文还比较了 Q 学习动态和实现均衡所能达到的社会福利,提供了一种充分条件,即使动态不收敛,Q 学习动态仍能超过均衡。
Jan, 2023
提出在给定特征空间中嵌入转移函数的二人零和随机博弈中,通过采样逼近纳什均衡策略的二人 Q-learning 算法,已证明可使用与特征数线性相关的样本大小找到 ε 最优策略;进一步改进算法的样本效率,采用方差约减、单调性保持和双侧策略逼近等技术来加速算法,证明了该算法最多只需要使用 O~(K/(ε^2 (1-γ)^4)) 个样本即可以高概率找到 ε 最优策略,其中 K 是特征数,γ 是折扣系数;算法的样本、时间和空间复杂度与游戏的原始维度无关。
Jun, 2019
这篇论文介绍了一种应用于实际情境下的框架,用于推断底层博弈参数,其中包括了基于决策理论的行为模型,用于学习复杂博弈中有理智的行为,并利用第一阶原始 - 对偶方法扩展了有效的端到端学习算法和简化博弈求解和梯度计算的计算。
Mar, 2019
研究了在连续多智能体博弈中应用策略梯度方法时出现的相对过度泛化问题,并提出了多智能体软 Q 学习方法来解决这个问题。与现有方法 MADDPG 相比,该方法可实现更好的多智能体协作任务协调,达到联合行为空间中更好的局部最优。
Apr, 2018
本文提出了新的高效 Q 学习动态应用于随机博弈,使智能体能够遵循阶段游戏中的对数线性学习动态,通过逐步迭代估计 Q 函数,实现高效平衡,并通过逐渐减小步长的方式使其收敛,同时还研究了 softmax 响应在此过程中产生的近似误差。
Feb, 2023
本文研究了 Q-learning 算法(一种经典且广泛应用于强化学习的方法)在游戏中受到复杂对手战略操纵的易感性,并量化了战略上熟练的代理人在了解对手的 Q-learning 算法的情况下可以如何利用一个天真的 Q-learner。为达到这个目的,我们将战略角色的问题定义为一个马尔可夫决策过程(具有涵盖所有可能的 Q 值的连续状态空间),将 Q-learning 算法作为基础动态系统。我们还提出了一种基于量化的近似方案来处理连续状态空间,并从理论上和数值上分析了其性能。
Mar, 2024