改进样本复杂度的学习零和线性二次博弈

Sep, 2023

改进样本复杂度的学习零和线性二次博弈

Learning Zero-Sum Linear Quadratic Games with Improved Sample Complexity

Jiduan Wu, Anas Barakat, Ilyas Fatkhullin, Niao He

TL;DR我们提出了一种简化的嵌套零阶算法，通过改进样本复杂度几个数量级，并使用单点零阶估计器，在相同假设下确保了 Γ(E^3) 样本复杂度。

Abstract

Zero-sum Linear Quadratic (LQ) games are fundamental in optimal control and can be used (i) as a dynamic game formulation for risk-sensitive or robust control, or (ii) as a benchmark setting for multi-agent reinforcemen

zero-sum linear quadratic games dynamic game formulation multi-agent reinforcement learning implicit regularization property sample complexity algorithm

发现论文，激发创造

策略优化在零和线性二次博弈中可以证明收敛到纳什均衡

研究线性二次游戏中政策优化寻找纳什均衡的全局收敛性，开发了三种投影嵌套 - 梯度方法并给出了满意的收敛性证明和模拟结果，是对零和 Markov 博弈政策优化强化学习算法理论方面的探索。

May, 2019

零和游戏的对数遗憾量子学习算法

我们提出了首个在线量子算法，用于零和游戏，可以在 $\tilde O (1)$ 的时间内计算 $m \times n$ 矩阵零和游戏的 $\varepsilon$- 近似纳什均衡，与 $m$，$n$ 的经典算法相比，取得了二次的改进，同时实现了一个快速的量子线性规划求解器。

Apr, 2023

输出反馈系统线性二次高斯控制的样本复杂度

该研究在部分观察的线性二次高斯问题中，通过鲁棒综合程序建立了学习稳定开环植物的鲁棒 LQG 控制器的样本复杂度界限。

Nov, 2020

线性二次调节器中基于模型和免模型方法之间的差异：一种渐近观点

研究在连续控制任务上，基于模型的方法与无模型方法的样本复杂度差异，发现基于模型的策略评估方法的样本复杂度会比最小二乘时序差分方法低，且最佳控制常常需要较少的样本量，这是首次在连续控制任务上证明了基于模型和无模型方法样本复杂度的分离现象。

Dec, 2018

零和游戏的量子算法

提出量子计算的次线性时间的算法，基于 LP 问题和量子 SDP 求解器，用有效的 Gibbs 采样方法计算二人零和游戏的 Nash 均衡点。

Apr, 2019

线性二次调节器的样本复杂度：强化学习视角

我们提供了一个新的算法，可以在没有依赖于两点梯度估计的情况下，在大约 1/ε 个函数评估内确保 ε- 最优性，适用于具有未知参数的折扣离散时间 LQR 问题。

Apr, 2024

零和随机博弈中带有函数逼近的两时间尺度 Q-Learning

我们提出了一种两时间尺度 Q 学习算法，采用函数逼近，以找到两个玩家之间公平、收敛、理性且对称的纳什均衡。我们的方法在线性函数逼近的特殊情况下，建立了无限采样边界，从而对这类随机博弈中收敛到纳什均衡所需的样本量提供了多项式的上界。

Dec, 2023

基于专家预测的无模型线性二次控制

本文介绍了一种新的无模型算法，用于控制线性二次系统，利用 reduce 方法，将马尔科夫决策过程的控制问题转化为专家预测问题，该算法实现简单通用，拥有多项理论保证和良好的性能。

Apr, 2018

通过熵正则化的策略逼近学习零和随机博弈中的纳什均衡

通过使用策略近似来减少学习零和随机博弈的纳什均衡的计算成本，我们提出了一种新的 Q-learning 类型算法，该算法使用一系列经过熵正则化的软策略来近似 Q 函数更新期间的纳什策略。我们证明，在某些条件下，通过更新正则化的 Q 函数，该算法收敛于纳什平衡，并演示了该算法快速适应新环境的能力。提供一种动态超参数调度方案来进一步加快收敛速度。应用于多个随机游戏的实证结果验证了所提出的算法收敛于纳什平衡，同时展现了比现有算法更快的加速效果。

Sep, 2020

序列零和线性二次动态博弈的策略梯度全局收敛

该研究提出了基于策略梯度的无投影序列算法来处理线性二次动力博弈问题，并证明了如果采用自然梯度下降 / 上升，该算法具有对纳什均衡的全局次线性收敛性；此外，如果领导者采用拟牛顿策略，该算法将具有全局二次收敛性。

Nov, 2019