本文研究提供确凿的样本高效离线强化学习算法需要什么样的可表示和分布条件。研究发现,即使有到所有策略的真实价值函数都线性映射到一组给定的特征,并且有关于策略的所有特征的良好聚集离线数据(在强谱条件下),任何算法仍然需要指数级的离线样本数量来估计任何给定策略的价值。
Oct, 2020
提出了一种新的离线强化学习框架,将模仿学习和通用离线强化学习相结合,中心思想是测量从行为策略到专家策略的偏差,进一步研究了针对未知数据分布下的算法设计问题,提出了一种基于悲观策略的下限置信度算法LCB,在多臂赌博机、情境赌博机和马尔可夫决策过程中进行了有限样本性能研究,结果揭示了一些有关最优性率的令人惊讶的事实。
Mar, 2021
通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据,在保持简单性的同时,最大限度地提高了运行效率,从而实现了与现有离线RL算法相当的性能。
Jun, 2021
本研究针对离线强化学习问题,研究了在实践中越来越受到关注的离线值函数逼近方法,发现其需要有限制的覆盖条件或超出监督学习的表示条件,并提出了所谓的过覆盖现象,阐述了在线和离线强化学习之间的巨大分离性,最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。
Nov, 2021
本文考虑了具有线性结构的MDPs的FineTuneRL设置,并开发了一种称为FTPedel的算法,用于结合脱机数据和在线RL以改进学习表现,结果证明了在线样本数的必要性以及在线RL和脱机数据结合的优越性,突出了在线RL和脱机RL之间的区别。
Nov, 2022
本研究提出了一种简单的方法,利用离线数据来解决在线强化学习中的效率和探索性问题,通过对现有离线策略学习算法进行改进,得出了可以在各种竞争对手的基准测试中比现有方法提高2.5倍的建议。
Feb, 2023
本文研究在函数逼近的情况下,从已有数据集合学习最优策略的离线强化学习问题。研究发现,本文提出的一种简单基于边缘重要采样的算法,可以在数据集合的覆盖率不完整、函数类弱可学习的条件下,通过附加覆盖分布的先验知识来实现理论上的有限次样本保证,同时揭示了学习过程中引入的归纳偏差在覆盖数量与先验知识之间的权衡效应。
May, 2023
利用深度强化学习和贝尔曼残差的耦合,我们在一些温和假设下,建立了悲观离线强化学习的非渐进估计误差,该结果展示了深度对抗式离线强化学习框架的显式效率,并对算法模型设计提供了指导。
Dec, 2023
我们提出了一个新颖的基于后验采样的离线RL算法,该算法在样本效率方面表现出与基于版本空间和经验正则化的算法可比拟的性能,并且具有频率主义的亚优性界限。
Jan, 2024
离线强化学习算法被证明在与目标下游任务高度相关的数据集上非常有效,然而,在轨迹来自不同源头的新测试平台(MOOD)上,我们发现现有方法在面对不同数据时效果明显下降:随着收集到的与任务相关但不同的数据简单地添加到离线缓冲区,它们的性能显著恶化。鉴于此发现,我们进行了大规模经验证明,规模是影响性能的关键因素而非算法上的考虑。我们展示了简单的方法(如AWAC和IQL)通过增加网络规模来克服MOOD中添加附加数据所产生的悖论性失败,且在经典的D4RL基准测试中明显优于先前的最新算法。
Mar, 2024