关于模仿学习的全局收敛性：线性二次调节器的案例

Jan, 2019

关于模仿学习的全局收敛性：线性二次调节器的案例

On the Global Convergence of Imitation Learning: A Case for Linear Quadratic Regulator

Qi Cai, Mingyi Hong, Yongxin Chen, Zhaoran Wang

TL;DR该研究探讨了生成对抗模仿学习在线性二次调节器方面的全局收敛性，提出了交替梯度算法解决非凸 - 凹几何形态可能带来的问题，该算法收敛速度为 Q 线性速率并得到全局最优策略和奖励函数，为理解和控制从强化学习和生成对抗学习中产生的非凸 - 凹交替极小最大优化方面的不稳定性迈出了一步。

Abstract

We study the global convergence of generative adversarial imitation learning for linear quadratic regulators, which is posed as minimax optimization. To address the challenges arising from non-convex-concave geom

generative adversarial imitation learning linear quadratic regulators alternating gradient algorithm q-linear rate of convergence reinforcement learning

发现论文，激发创造

关于 Actor-Critic 的全局收敛性：线性二次调节器具有遍历成本

研究了基于 actor-critic 算法的在线交替更新算法在双层优化问题中的应用，证明了该算法在线性二次型调节器中的全局最优对 actor 和 critic 的线性收敛率

Jul, 2019

线性二次型调节器的策略梯度方法全局收敛

该研究桥接了基于模型和基于非模型策略梯度方法之间的差距，表明无模型的策略梯度方法全局收敛到最优解，并且在样本和计算复杂度方面效率很高。

Jan, 2018

神经网络生成对抗模仿学习：全局最优性和收敛速率

本文采用基于梯度的交替更新策略，分析了生成对抗学习在神经网络结构下的全局优化和收敛速率，证明了该方法的全局最优解和收敛性。

Mar, 2020

有限时间内的带噪声线性二次调节器的策略梯度方法

本文研究了在线性二次型调节器问题中寻找最优策略的强化学习方法，并在两个例子中说明了该方法的性能。

Nov, 2020

序列零和线性二次动态博弈的策略梯度全局收敛

该研究提出了基于策略梯度的无投影序列算法来处理线性二次动力博弈问题，并证明了如果采用自然梯度下降 / 上升，该算法具有对纳什均衡的全局次线性收敛性；此外，如果领导者采用拟牛顿策略，该算法将具有全局二次收敛性。

Nov, 2019

元学习线性二次调节器：一种基于策略梯度的模型无关 LQR 的 MAML 方法

在多任务、异构和无模型的情况下，我们研究了学习线性二次调节器（LQR）的问题。我们表征了基于策略梯度的无模型元学习方法（MAML）（Finn et al.，2017）在不同任务异质性设置下的稳定性和个性化保证。我们展示了 MAML-LQR 方法在模型为基础和无模型设置下产生了一个接近每个任务特定最优控制器的稳定控制器，直到任务异质性偏差为止。此外，在模型为基础的设置中，我们展示了这个控制器以线性收敛速度实现，这在现有的 MAML-LQR 工作中改进了次线性速度。与现有的 MAML-LQR 结果相比，我们的理论保证证明了学到的控制器可以高效地适应未见的 LQR 任务。

Jan, 2024

梯度为基础的 MAML 在 LQR 中的收敛性

本研究探讨了 Model-agnostic Meta-learning (MAML) 在线性系统二次最优控制（LQR）中的局部收敛特性，同时保持动态系统的稳定性。通过简单的数值结果展示了 MAML 在 LQR 任务中的收敛性。

Sep, 2023

非随机控制赌博机的最优率

探究了具有半对抗干扰和随时间变化的对抗性贝叶斯损失函数的线性四次型调节器和线性四次型高斯控制问题。提出了一种新的带有记忆的贪婪凸优化方案，其算法达到了最优遗憾度

May, 2023

无模型线性二次调节器问题的梯度方法的收敛性和样本复杂度

研究了无模型强化学习中的线性二次调节器问题，建立了梯度流动力学和随机搜索法的指数稳定性，同时证明了函数评估次数和仿真时间都会随着精度要求的提高而对数增加。

Dec, 2019

策略优化在零和线性二次博弈中可以证明收敛到纳什均衡

研究线性二次游戏中政策优化寻找纳什均衡的全局收敛性，开发了三种投影嵌套 - 梯度方法并给出了满意的收敛性证明和模拟结果，是对零和 Markov 博弈政策优化强化学习算法理论方面的探索。

May, 2019