研究线性二次游戏中政策优化寻找纳什均衡的全局收敛性,开发了三种投影嵌套 - 梯度方法并给出了满意的收敛性证明和模拟结果,是对零和 Markov 博弈政策优化强化学习算法理论方面的探索。
May, 2019
我们提出了首个在线量子算法,用于零和游戏,可以在 $\tilde O (1)$ 的时间内计算 $m \times n$ 矩阵零和游戏的 $\varepsilon$- 近似纳什均衡,与 $m$,$n$ 的经典算法相比,取得了二次的改进,同时实现了一个快速的量子线性规划求解器。
Apr, 2023
该研究在部分观察的线性二次高斯问题中,通过鲁棒综合程序建立了学习稳定开环植物的鲁棒 LQG 控制器的样本复杂度界限。
Nov, 2020
研究在连续控制任务上,基于模型的方法与无模型方法的样本复杂度差异,发现基于模型的策略评估方法的样本复杂度会比最小二乘时序差分方法低,且最佳控制常常需要较少的样本量,这是首次在连续控制任务上证明了基于模型和无模型方法样本复杂度的分离现象。
Dec, 2018
提出量子计算的次线性时间的算法,基于 LP 问题和量子 SDP 求解器,用有效的 Gibbs 采样方法计算二人零和游戏的 Nash 均衡点。
Apr, 2019
我们提供了一个新的算法,可以在没有依赖于两点梯度估计的情况下,在大约 1/ε 个函数评估内确保 ε- 最优性,适用于具有未知参数的折扣离散时间 LQR 问题。
Apr, 2024
我们提出了一种两时间尺度 Q 学习算法,采用函数逼近,以找到两个玩家之间公平、收敛、理性且对称的纳什均衡。我们的方法在线性函数逼近的特殊情况下,建立了无限采样边界,从而对这类随机博弈中收敛到纳什均衡所需的样本量提供了多项式的上界。
Dec, 2023
本文介绍了一种新的无模型算法,用于控制线性二次系统,利用 reduce 方法,将马尔科夫决策过程的控制问题转化为专家预测问题,该算法实现简单通用,拥有多项理论保证和良好的性能。
Apr, 2018
通过使用策略近似来减少学习零和随机博弈的纳什均衡的计算成本,我们提出了一种新的 Q-learning 类型算法,该算法使用一系列经过熵正则化的软策略来近似 Q 函数更新期间的纳什策略。我们证明, 在某些条件下,通过更新正则化的 Q 函数,该算法收敛于纳什平衡,并演示了该算法快速适应新环境的能力。提供一种动态超参数调度方案来进一步加快收敛速度。 应用于多个随机游戏的实证结果验证了所提出的算法收敛于纳什平衡,同时展现了比现有算法更快的加速效果。
Sep, 2020
该研究提出了基于策略梯度的无投影序列算法来处理线性二次动力博弈问题,并证明了如果采用自然梯度下降 / 上升,该算法具有对纳什均衡的全局次线性收敛性;此外,如果领导者采用拟牛顿策略,该算法将具有全局二次收敛性。
Nov, 2019