最优值估计中的实例最优性：通过方差缩减 Q 学习实现自适应

Jun, 2021

最优值估计中的实例最优性：通过方差缩减 Q 学习实现自适应

Instance-optimality in optimal value estimation: Adaptivity via variance-reduced Q-learning

Koulik Khamaru, Eric Xia, Martin J. Wainwright, Michael I. Jordan

TL;DR本文提出一个本地极小极大方法，分析了计算强化学习下的最优 $Q$ 值函数的实例特定行为，并提供一个针对 $Q$ 学习中困难问题和易解问题的有力解释。

Abstract

Various algorithms in reinforcement learning exhibit dramatic variability in their convergence rates and ultimate accuracy as a function of the problem structure. Such instance-specific behavior is not captured b

reinforcement learning convergence rates markov decision process $q$-value functions variance-reduced $q$-learning

发现论文，激发创造

方差缩减 $Q$- 学习达到了最小极差优化

介绍和分析了一种方差减少的 Q-learning 方法，为具有有限状态和动作空间的折扣 MDPs 提供了相对精确的最优 Q 函数估计，其采样数量与最小极值下界匹配。

Jun, 2019

方差减少的分布鲁棒 Q 学习的样本复杂性

本论文提出了两种模型无关的算法，分别是分布鲁棒的 Q-learning 及其方差缩减的版本。这些算法可在处理分布移位时有效地学习强大的策略。在一系列数值实验中，这些算法的理论发现和效率得到了证实。

May, 2023

Q-Learning 算法是否达到 Minimax 最优性？一种紧凑的样本复杂度分析

本文研究 Q-learning 同步和异步情况下的样本复杂性和子优秀性，并展示在异步情况下的样本复杂性更强，Q-learning 算法是严格亚最优的。

Feb, 2021

异步 Q 学习的样本复杂度：更精确的分析和降低方差

该研究通过异步 Q-learning 算法，在马尔科夫决策流程中的样本轨迹中学习最优动作价值函数，给出了基于 L∞的样本复杂度分析及等式组，并在此基础上提出一种新的方差缩减技术，进一步提高了算法的效率。

Jun, 2020

最小化差值的最优 $Q$ 学习与最近邻

该研究提出两种新的 Q 学习方法，以弥补 (Shah and Xie, 2018) 中收敛速率差异，其中一种是脱机方法，另一种是在线方法。尽管我们仍然使用最近邻方法估计 Q 函数，但算法与 (Shah and Xie, 2018) 有着关键的不同之处。特别地，在离散区域中，我们将核最近邻方法替换为直接最近邻方法。因此，我们的方法显著提高了收敛速率。此外，在高维状态空间中，时间复杂度也显著改善。我们的分析表明，脱机和在线方法都是极小极大速率最优的。

Aug, 2023

线性函数逼近下的最小化最优离线策略评估

本文研究利用函数逼近的批量数据强化学习的统计理论，针对离线策略评估问题提出了基于回归的适应 Q 迭代方法，证明该方法是信息理论上的最优方法，错误估计接近最小，进而提供容易计算的置信区间，该方法在乐观规划和安全策略改进中可能有用

Feb, 2020

Maxmin Q-learning：控制 Q-learning 的估计偏差

本文提出 Maxmin Q-learning 算法来减少 Q-learning 中过高估计值的偏置，为了对偏置进行更好的控制，提出了一个可以灵活控制的参数，并经过实验证实了该算法在控制估计偏差方面更为有效，并在多个基准问题上实现了卓越的性能

Feb, 2020

通用效用的强化学习：更简单的方差缩减和大状态行动空间

我们提出了一种更简单的单循环，无参数归一化策略梯度算法，用于解决具有一般效用的强化学习问题，其中包括约束强化学习，纯探索以及从演示中学习等问题，同时通过线性函数逼近解决大状态 - 动作空间的设置，并展示了简单的策略梯度法的样本复杂度。

Jun, 2023

分布鲁棒离线强化学习的极小极大最优和计算高效算法

分布式鲁棒离线强化学习是针对环境扰动进行鲁棒策略训练的一种方法，当面对大规模状态 - 动作空间时需要进行函数逼近。本研究提出了一种最小极大值最优算法，通过对线性参数化的模型进行实现，探索了实例依赖次优性分析在鲁棒离线强化学习中的应用，并揭示了鲁棒离线强化学习中的函数逼近与标准离线强化学习所面临的困难之间的本质区别。

Mar, 2024

MDP 中无折扣强化学习的方差感知遗憾界

本研究考虑了在未知的离散马尔科夫决策过程下，使用平均奖励准则的强化学习问题，其中学习者从一个初始状态开始，通过单个观察流与系统进行交互。我们提供了 KL-UCRL 算法的新分析，为该算法建立了高概率遗憾界，对于同一类随机过程的效果较之前的算法遗憾界有数量级的提升。

Mar, 2018