通过双方差降低近似最优离线强化学习

Feb, 2021

通过双方差降低近似最优离线强化学习

Near-Optimal Offline Reinforcement Learning via Double Variance Reduction

Ming Yin, Yu Bai, Yu-Xiang Wang

TL;DR本文提出了一种新的算法 OPDVR 用于离线强化学习中的方差缩减，其能够证明在离线数据情况下，在有限时间内获得最优策略，同时在某些环境设定下具有最优样本复杂度，为离线强化学习的发展提供了新方案。

Abstract

We consider the problem of offline reinforcement learning (RL) -- a well-motivated setting of RL that aims at policy optimization using only historical data. Despite its wide applicability, theoretical understand

offline reinforcement learning variance reduction double optimal sample complexity policy optimization

发现论文，激发创造

线性 MDP 的离线原始 - 对偶强化学习

本文提出了一种基于线性规划的原对偶优化方法，该方法针对有限时间或使用表格的强 RL 范式有较强的理论保证，采用函数近似和最小数据集假设解决了无限时间范式的算法问题，并在更具挑战性的平均回报设置下进行了分析。

May, 2023

基于序列建模的强化学习离策略评估中使用双重策略估计的统计高效方差缩减

提出了一种利用线下序列建模和线下强化学习相结合的双策略估计 (DPE) 的强化学习算法，具有统计上证明的方差降低性质，应用于多个 OpenAI Gym 中的任务，并在 D4RL 基准测试中取得了性能改进，优于基线方法，展示了序列建模强化学习中双策略估计的优势。

Aug, 2023

几乎没有视野限制的离线强化学习

本文利用离线强化学习技术研究了时域同质马尔可夫决策过程上的策略评估和优化问题，并提出了一种递归方法来限制离线场景下的 “总方差” 项，得到了近似无视野远的样本复杂度上限。

Mar, 2021

离线约束强化学习的低秩 MDP 原始 - 对偶算法

该论文提出了一种用于解决低秩 Markov 决策过程的离线强化学习算法，该算法在折扣无限时间段设置中具有较低的样本复杂度，且支持离线约束强化学习设置。

Feb, 2024

离线分布鲁棒线性马尔科夫决策过程的样本复杂度

通过使用离线数据，基于分布健壮的线性马尔科夫决策过程，开发了一种悲观的模型算法，提供了一个具有样本效率的鲁棒性学习策略，以解决离线强化学习中模拟和实际环境之间的差异所带来的问题。

Mar, 2024

降低方差的价值迭代算法及用于求解马尔可夫决策流程的更快速算法

提出了一种采用采样技术的快速算法来解决折扣马尔可夫决策过程的近似求解，并证明了算法的收敛性和复杂度。同时，结合经典的价值迭代与方差约减技术，改进了该算法的性能，使其具有线性收敛性和渐进最优性。

Oct, 2017

通过悲观主义实现最优离线强化学习

本文研究了离线强化学习问题，特别是针对有限时间视野 MDPs 的离线强化学习问题的采样效率问题，提出了自适应悲观值迭代算法，并推导了其次优性上界，推广到了无任何假设的情况下，并得到了无假设的本质学习下界，揭示了离线强化学习固有的根本限制。

Oct, 2021

更加健壮的双重偏差离线评估

本文针对强化学习中的离策略评估问题，提出了一种名为 MRDR 的更加鲁棒的 Doubly Robust 估计方法，该方法通过最小化 DR 估计器的方差来学习模型参数，并在上下文决策和强化学习基准问题中进行评估，证明了其强一致性和渐进最优性。

Feb, 2018

强化学习离线策略评估中的近最优可证明一致收敛

该研究旨在解决强化学习中离线策略评估问题，通过同时评估策略类别中的所有策略，实现一致收敛，并获得了多种全局 / 局部策略类别的近乎最优误差界限。

Jul, 2020

自适应数据采集的增强学习离线策略评估

本文针对相对于通常的数据收集方式更加广义的数据收集方式下离线 RL 算法的理论保证问题进行研究，并探讨 TMIS Offline Policy Evaluation 在 tabular MDPs 下的最小最优保证问题及实验分析。

Jun, 2023