线性函数逼近离线强化学习的统计限制是什么?
本研究针对离线强化学习问题,研究了在实践中越来越受到关注的离线值函数逼近方法,发现其需要有限制的覆盖条件或超出监督学习的表示条件,并提出了所谓的过覆盖现象,阐述了在线和离线强化学习之间的巨大分离性,最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。
Nov, 2021
本论文介绍了一种用于解决强化学习中有限数据和训练测试环境不匹配的问题的分布式离线 RL 方法,该方法使用历史数据学习分布式鲁棒的策略,包括线性函数逼近的情况,提出了两种算法,得出了第一个样例复杂度的非渐近性结果,并展示了其在实验上的优越性。
Sep, 2022
本文基于边缘化重要性取样 (RL) 提出了一种新的离线强化学习算法,以实现一般函数逼近和单策略可集中性的统计最优性,无需不确定性量化,并且通过应用增广 Lagrange 方法,保证某些占用有效性约束的近似满足。与以往力图通过行为规则化等方法引入额外保守性的算法不同,本文方法证明消除了这种需求,并将规则化器重新解释为 “占用有效性的执行者”,而不是 “保守性的促进者”。
Nov, 2022
分布式鲁棒离线强化学习是针对环境扰动进行鲁棒策略训练的一种方法,当面对大规模状态 - 动作空间时需要进行函数逼近。本研究提出了一种最小极大值最优算法,通过对线性参数化的模型进行实现,探索了实例依赖次优性分析在鲁棒离线强化学习中的应用,并揭示了鲁棒离线强化学习中的函数逼近与标准离线强化学习所面临的困难之间的本质区别。
Mar, 2024
使用不同 iable 函数类逼近的离线强化学习方法在实践中得到了广泛应用,它结合了各种具有非线性和非凸结构的模型,能够显著提高算法性能;本文分析了一种最悲观的算法,并证明这种方法的有效性,为探究强化学习与不同 iable 函数逼近方法提供了新的理论基础。
Oct, 2022
本文研究线性函数逼近下无穷时域离线强化学习的策略评估的样本复杂性以及分布漂移假设下的算法,提出了算法的样本复杂性的下界,以及样本复杂性的上界。
Mar, 2021
本研究提出了一种基于 Bootstrapped and Constrained Pessimistic Value Iteration 算法的离线强化学习方法,该算法结合数据自举、约束优化和悲观主义。在局部数据覆盖的假设下,该算法提供了一个快速率,即使在自适应采集的离线数据中,也能够实现绝对零的次优误差和 O(1 / K)的较低界限。
Nov, 2022
本研究从实证的角度研究了离线强化学习的稳定性,尝试使用来自预训练神经网络的特征进行样本高效的离线强化学习,结果表明即使使用这种预训练表示,仍然存在显著的误差扩大,离线强化学习仅在极小的分布偏移范围内是稳定的。这些结果表明,成功的离线强化学习需要更强的条件,这些条件超出了成功监督学习所需的条件。
Mar, 2021