本文提出了一种基于线性规划的原对偶优化方法,该方法针对有限时间或使用表格的强 RL 范式有较强的理论保证,采用函数近似和最小数据集假设解决了无限时间范式的算法问题,并在更具挑战性的平均回报设置下进行了分析。
May, 2023
提出了一种利用线下序列建模和线下强化学习相结合的双策略估计 (DPE) 的强化学习算法,具有统计上证明的方差降低性质,应用于多个 OpenAI Gym 中的任务,并在 D4RL 基准测试中取得了性能改进,优于基线方法,展示了序列建模强化学习中双策略估计的优势。
Aug, 2023
本文利用离线强化学习技术研究了时域同质马尔可夫决策过程上的策略评估和优化问题,并提出了一种递归方法来限制离线场景下的 “总方差” 项,得到了近似无视野远的样本复杂度上限。
Mar, 2021
该论文提出了一种用于解决低秩 Markov 决策过程的离线强化学习算法,该算法在折扣无限时间段设置中具有较低的样本复杂度,且支持离线约束强化学习设置。
Feb, 2024
通过使用离线数据,基于分布健壮的线性马尔科夫决策过程,开发了一种悲观的模型算法,提供了一个具有样本效率的鲁棒性学习策略,以解决离线强化学习中模拟和实际环境之间的差异所带来的问题。
Mar, 2024
提出了一种采用采样技术的快速算法来解决折扣马尔可夫决策过程的近似求解,并证明了算法的收敛性和复杂度。同时,结合经典的价值迭代与方差约减技术,改进了该算法的性能,使其具有线性收敛性和渐进最优性。
Oct, 2017
本文研究了离线强化学习问题,特别是针对有限时间视野 MDPs 的离线强化学习问题的采样效率问题,提出了自适应悲观值迭代算法,并推导了其次优性上界,推广到了无任何假设的情况下,并得到了无假设的本质学习下界,揭示了离线强化学习固有的根本限制。
Oct, 2021
本文针对强化学习中的离策略评估问题,提出了一种名为 MRDR 的更加鲁棒的 Doubly Robust 估计方法,该方法通过最小化 DR 估计器的方差来学习模型参数,并在上下文决策和强化学习基准问题中进行评估,证明了其强一致性和渐进最优性。
Feb, 2018
该研究旨在解决强化学习中离线策略评估问题,通过同时评估策略类别中的所有策略,实现一致收敛,并获得了多种全局 / 局部策略类别的近乎最优误差界限。
Jul, 2020
本文针对相对于通常的数据收集方式更加广义的数据收集方式下离线 RL 算法的理论保证问题进行研究,并探讨 TMIS Offline Policy Evaluation 在 tabular MDPs 下的最小最优保证问题及实验分析。
Jun, 2023