增加覆盖分布的离线强化学习
该论文研究覆盖条件在离线强化学习中的作用,并通过建立覆盖条件与在线强化学习之间的联系,证明存在具有良好覆盖性的数据分布可以使在线 RL 更具样本效率。此外,提出了用于衡量覆盖性的新型复杂度量和弱覆盖性概念的不足。
Oct, 2022
本文基于边缘化重要性取样 (RL) 提出了一种新的离线强化学习算法,以实现一般函数逼近和单策略可集中性的统计最优性,无需不确定性量化,并且通过应用增广 Lagrange 方法,保证某些占用有效性约束的近似满足。与以往力图通过行为规则化等方法引入额外保守性的算法不同,本文方法证明消除了这种需求,并将规则化器重新解释为 “占用有效性的执行者”,而不是 “保守性的促进者”。
Nov, 2022
本文研究除去 Bellman-completeness 和 all-policy concentrability 强假设是否可以在两个因素上弱化假设,结果证明基于 MDPs 的原始 - 对偶算法可以实现针对单策略可集中性的多项式样本复杂度,提供了不同假设的替代分析,为离线 RL 的原始 - 对偶算法提供新方法。
Feb, 2022
本研究针对离线强化学习问题,研究了在实践中越来越受到关注的离线值函数逼近方法,发现其需要有限制的覆盖条件或超出监督学习的表示条件,并提出了所谓的过覆盖现象,阐述了在线和离线强化学习之间的巨大分离性,最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。
Nov, 2021
本研究聚焦于在线强化学习中,使用一定的覆盖条件能够确保样本高效,通过挖掘更多的覆盖条件,研究了其在提高样本效率方面的潜力和效用,进一步证明使用覆盖条件能够实现在线强化学习的高效性,包括 $L^p$ 集中性方差实现、密度比实现、偏差 / 休息覆盖条件的权衡以及基于探索性离线数据使用统计和计算有效保证等。
Apr, 2023
离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决,本文提出了两种使用该框架的离线强化学习算法,并通过模拟实验展示了其优越性能。
Oct, 2023
研究在线学习中常见的数据不全覆盖情况,提出 Constrained Pessimistic Policy Optimization (CPPO) 算法,基于模型类别的限制来表示悲观情况,算法可以在数据不全覆盖的情况下具有 PAC 保证。
Jul, 2021
本文针对相对于通常的数据收集方式更加广义的数据收集方式下离线 RL 算法的理论保证问题进行研究,并探讨 TMIS Offline Policy Evaluation 在 tabular MDPs 下的最小最优保证问题及实验分析。
Jun, 2023
本论文介绍了一种用于解决强化学习中有限数据和训练测试环境不匹配的问题的分布式离线 RL 方法,该方法使用历史数据学习分布式鲁棒的策略,包括线性函数逼近的情况,提出了两种算法,得出了第一个样例复杂度的非渐近性结果,并展示了其在实验上的优越性。
Sep, 2022