几乎没有视野限制的离线强化学习

Mar, 2021

几乎没有视野限制的离线强化学习

Nearly Horizon-Free Offline Reinforcement Learning

Tongzheng Ren, Jialian Li, Bo Dai, Simon S. Du, Sujay Sanghavi

TL;DR本文利用离线强化学习技术研究了时域同质马尔可夫决策过程上的策略评估和优化问题，并提出了一种递归方法来限制离线场景下的 “总方差” 项，得到了近似无视野远的样本复杂度上限。

Abstract

We revisit offline reinforcement learning on episodic time-homogeneous Markov Decision Processes (mdp). For tabular mdp with $S$ states an

offline reinforcement learning mdp sample complexity bounds policy optimization total variance

发现论文，激发创造

固定视界强化学习的样本复杂度

本文研究了固定时间段内交互式学习智能体的表现，并从样本复杂度的角度提出了上下 PAC 确定性保证边界，为固定时间段内 MDP 的研究提供了理论上的支持。

Oct, 2015

多项式时间的无界强化学习：静态策略的威力

本文提出了第一个针对有限 MDP 多项式时间算法，具有独立于计划时间的后悔范围，并通过一系列的新结构引理，建立了稳定性和专注性，提高了 MDP 的近似能力和性能。

Mar, 2022

在对抗性线性混合 MDPs 中的无限制视野强化学习

本文通过提出第一个无界时间步长多次对抗强化学习的策略搜索算法，使用方差 - 不确定性感知加权最小二乘估计器和基于占用度量的在线搜索技术，以解决探索和对抗性奖励所带来的挑战，证明算法在全信息反馈下具有 O ((d+log (|S|^2|A|)) sqrt (K)) 的后悔界，其中 d 是未知转移核线性参数化的已知特征映射的维数，K 是剧集数量，|S| 和 |A| 是状态和行为空间的基数。

May, 2023

模型基节流离线强化学习的样本复杂度研究

本文提出了一种无需进一步探索的离线强化学习方法，通过精心设计的模型实现了最优的样本复杂度，适合处理数据分布转移和数据覆盖范围受限的情况。

Apr, 2022

通过双方差降低近似最优离线强化学习

本文提出了一种新的算法 OPDVR 用于离线强化学习中的方差缩减，其能够证明在离线数据情况下，在有限时间内获得最优策略，同时在某些环境设定下具有最优样本复杂度，为离线强化学习的发展提供了新方案。

Feb, 2021

在线稀疏强化学习

在稀疏线性马尔可夫决策过程中，通过引入一种新的算法 - Lasso fitted Q-iteration，通过一个具有一定条件的数据策略，以几乎无维度代价实现对在线强化学习的降低，但线性后悔在常用政策情况下仍然无法避免。

Nov, 2020

基于无界时间跨度和方差的隐含马尔可夫决策过程强化学习

本文研究基于后知的上下文中的潜在马尔可夫决策过程（LMDPs）的强化学习中的遗憾最小化问题，设计了一种新的基于模型的算法框架，证明了具有一定时间复杂度的遗憾上限。

Oct, 2022

线性混合 MDP 的高效无界强化学习算法

该研究论文提出了第一个计算高效、无横向界限算法，其中采用了加权最小二乘法，以用于未知状态转移动态的估算，并能够应用于异构线性 bandits 中，达到了比已知算法更优的效果。

May, 2022

线性马尔可夫决策过程的无界遗憾

近期一些研究工作展示了强化学习中降低后悔的边界可以（几乎）与计划周期无关，即所谓的无周期边界。然而，这些后悔边界仅适用于允许对转移模型大小多项式依赖的设置，例如表格型马尔科夫决策过程（MDP）和线性混合 MDP。我们给出了流行的线性 MDP 设置的首个无周期边界，其中转移模型的大小可以是指数级大甚至是不可数的。与先前的工作相比，该方法不需要明确估计转移模型并计算不同时间步的非齐次值函数，而是直接估计值函数和置信区间集合。通过保持多个加权最小二乘估计器，该方法获得了无周期边界，并且通过结构引理证明了非齐次值函数的最大总变差受特征维数的多项式因子限制。

Mar, 2024

突破样本复杂度障碍，实现后悔优化的无模型强化学习

通过引入方差缩减策略，设计了一个记忆高效的算法来解决在线序列化强化学习中的勘探和开发之间的平衡问题，该算法的空间复杂度为 $ O (SAH)$，较以前的算法提高了 $S^5A^3$ 倍的效率。

Oct, 2021