线性函数逼近下的最小化最优离线策略评估
研究了一种在Markovian噪声下的非线性随机逼近算法,证明了其具有不同学习速率的有限样本收敛界限,并证明了其适用于Q-learning算法。
May, 2019
本研究提出了一种基于较小方差的边缘重要性抽样(MIS)的算法,用以解决RL中long horizon MDP的Off-policy evaluation(OPE)问题,并表现出在多个环境中的良好表现。
Jun, 2019
通过数据策略辅助下的敏感性模型,我们开发了一种强健的方法,针对诸如教育和医疗等批量强化学习的应用中未被观察到的变量,估计了一个无限时间阶段内给定策略值的尖锐边界。我们证明,随着我们收集更多混淆数据,我们能够收敛于尖锐的边界。虽然检查集合成员身份是一个线性规划,但支持功能是由一个困难的非凸优化问题给出的。我们基于非凸投影梯度下降方法开发了一些近似,并在实证中演示了所得到的边界。
Feb, 2020
本文从函数逼近和$q$函数的角度,通过最新的极小极大方法对离线策略评估(OPE)在强化学习中进行了理论刻画,并基于此结果分析了OPE的收敛速度和新的完备条件,提出了第一种在非表格环境下具有一阶效率的有限样本结果。
Feb, 2021
本文研究线性函数逼近下无穷时域离线强化学习的策略评估的样本复杂性以及分布漂移假设下的算法,提出了算法的样本复杂性的下界,以及样本复杂性的上界。
Mar, 2021
本研究旨在通过使用值函数的方差信息提高离线策略评估中的样本效率,其中针对非时变线性马尔可夫决策过程(MDPs),提出了VA-OPE算法,使用值函数的方差对Fitted Q-Iteration中的Bellman残差进行重新加权,并且我们展示了我们的算法比最好已知的结果实现了更紧密的误差界限。我们对行为策略和目标策略之间的分布变化进行了细致的描述,而广泛的数值实验也支持了我们的理论。
Jun, 2021
本研究提出了一种基于Bootstrapped and Constrained Pessimistic Value Iteration算法的离线强化学习方法,该算法结合数据自举、约束优化和悲观主义。在局部数据覆盖的假设下,该算法提供了一个快速率,即使在自适应采集的离线数据中,也能够实现绝对零的次优误差和O(1 / K)的较低界限。
Nov, 2022
本文研究在函数逼近的情况下,从已有数据集合学习最优策略的离线强化学习问题。研究发现,本文提出的一种简单基于边缘重要采样的算法,可以在数据集合的覆盖率不完整、函数类弱可学习的条件下,通过附加覆盖分布的先验知识来实现理论上的有限次样本保证,同时揭示了学习过程中引入的归纳偏差在覆盖数量与先验知识之间的权衡效应。
May, 2023