确定性系统中基于函数逼近的无神论 Q 学习：逼近误差和样本复杂度的严格界限

Feb, 2020

确定性系统中基于函数逼近的无神论 Q 学习：逼近误差和样本复杂度的严格界限

Agnostic Q-learning with Function Approximation in Deterministic Systems: Tight Bounds on Approximation Error and Sample Complexity

PDF

Simon S. Du, Jason D. Lee, Gaurav Mahajan, Ruosong Wang

TL;DR研究了确定性系统中基于函数逼近的 agnostic Q-learning 问题，并提出了一种新颖的递归算法，证明了采用该算法可以找到最优策略，同时满足多项约束条件。

Abstract

The current paper studies the problem of agnostic $Q$-learning with function approximation in deterministic systems where the optimal $Q$-function is approximable by a function in the class $\mathcal{F}$ with approximation error $\delta \ge 0$. We propose a novel recursion-based algorithm

agnostic q-learning function approximation recursion-based algorithm sample complexity stochastic reward

发现论文，激发创造

零和随机博弈中带有函数逼近的两时间尺度 Q-Learning

我们提出了一种两时间尺度 Q 学习算法，采用函数逼近，以找到两个玩家之间公平、收敛、理性且对称的纳什均衡。我们的方法在线性函数逼近的特殊情况下，建立了无限采样边界，从而对这类随机博弈中收敛到纳什均衡所需的样本量提供了多项式的上界。

Dec, 2023

通过分布偏移误差检查预示着的函数逼近 $Q$ 学习的可证明高效性

本文介绍了一种可证明有效的基于线性函数逼近的 $Q$-learning 算法，提出了 DSEC oracle 概念，该算法使用多项式数量的轨迹返回近似最优策略，并可用于设计和分析具有一般函数逼近的强化学习算法。

Jun, 2019

部分动力学知识的高效强化学习

本文研究在线强化学习的样本复杂性问题，并考虑了有关系统动态的部分知识，提出了一种基于 Q-learning 的算法，能够在具有有限 Markov 决策过程的系统中实现近似最优策略。

Dec, 2023

基于神经网络函数逼近的 Q 学习的有限时间分析

本文提出了一种有限时间的神经 Q 学习算法，其中数据是从 Markov 决策过程中生成的，动作价值函数由 Deep ReLU 神经网络逼近，我们证明了如果神经功能逼近器被足够过度参数化，神经 Q 学习可以找到具有 O（1 / 根号 T）收敛速度的最优策略，并且该结果是对非 i.i.d 数据假设的首次有限时间分析。

Dec, 2019

最优值估计中的实例最优性：通过方差缩减 Q 学习实现自适应

本文提出一个本地极小极大方法，分析了计算强化学习下的最优 $Q$ 值函数的实例特定行为，并提供一个针对 $Q$ 学习中困难问题和易解问题的有力解释。

Jun, 2021

方差减少的分布鲁棒 Q 学习的样本复杂性

本论文提出了两种模型无关的算法，分别是分布鲁棒的 Q-learning 及其方差缩减的版本。这些算法可在处理分布移位时有效地学习强大的策略。在一系列数值实验中，这些算法的理论发现和效率得到了证实。

May, 2023

Q-Learning 算法是否达到 Minimax 最优性？一种紧凑的样本复杂度分析

本文研究 Q-learning 同步和异步情况下的样本复杂性和子优秀性，并展示在异步情况下的样本复杂性更强，Q-learning 算法是严格亚最优的。

Feb, 2021

基于特征的 Q 学习在双人随机博弈中的应用

提出在给定特征空间中嵌入转移函数的二人零和随机博弈中，通过采样逼近纳什均衡策略的二人 Q-learning 算法，已证明可使用与特征数线性相关的样本大小找到 ε 最优策略；进一步改进算法的样本效率，采用方差约减、单调性保持和双侧策略逼近等技术来加速算法，证明了该算法最多只需要使用 O~(K/(ε^2 (1-γ)^4)) 个样本即可以高概率找到 ε 最优策略，其中 K 是特征数，γ 是折扣系数；算法的样本、时间和空间复杂度与游戏的原始维度无关。

Jun, 2019

异步 Q 学习的样本复杂度：更精确的分析和降低方差

该研究通过异步 Q-learning 算法，在马尔科夫决策流程中的样本轨迹中学习最优动作价值函数，给出了基于 L∞的样本复杂度分析及等式组，并在此基础上提出一种新的方差缩减技术，进一步提高了算法的效率。

Jun, 2020