通过悲观主义实现最优离线强化学习
本文提出了一种悲观的价值迭代算法(PEVI),它通过引入一个不确定性量化器作为惩罚函数来解决离线强化学习中因数据集覆盖不足而导致的不足问题,并在泛化情况下对其次优性建立了数据相关的上限。
Dec, 2020
本文研究了离线强化学习的一个悲观策略 Q-learning,针对有限时间的马尔科夫决策过程,通过单一策略密度函数的集中性假设,对其样本复杂度进行了表征,并提出了一种方差减小的悲观 Q-learning 算法来达到接近最优的样本复杂度。研究结果表明,在离线强化学习中,结合悲观策略和方差减小的模型无关型算法能够提高效率。
Feb, 2022
本研究提出了一种基于 Bootstrapped and Constrained Pessimistic Value Iteration 算法的离线强化学习方法,该算法结合数据自举、约束优化和悲观主义。在局部数据覆盖的假设下,该算法提供了一个快速率,即使在自适应采集的离线数据中,也能够实现绝对零的次优误差和 O(1 / K)的较低界限。
Nov, 2022
提出了一种新的离线强化学习框架,将模仿学习和通用离线强化学习相结合,中心思想是测量从行为策略到专家策略的偏差,进一步研究了针对未知数据分布下的算法设计问题,提出了一种基于悲观策略的下限置信度算法 LCB,在多臂赌博机、情境赌博机和马尔可夫决策过程中进行了有限样本性能研究,结果揭示了一些有关最优性率的令人惊讶的事实。
Mar, 2021
研究通过行为策略收集的数据集来学习优化策略的离线强化学习算法,并针对潜在状态的影响所产生的混淆偏差和最优策略与行为策略之间的分布转换问题,提出了代理变量悲观策略优化(P3O)算法。
May, 2022
本研究比较不同的不确定性启发式方法,并设计新的协议来研究它们与其他超参数的交互作用,使用这些洞见,我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置,这与现有手动调整的最先进方法大不相同, 从而实现了大幅度的强化学习。
Oct, 2021
本文研究了在线强化学习问题在无限时间段环境中的高效解决方法,其中假设有一个离线数据集作为起点,由一个未知能力水平的专家生成,我们展示了如果学习代理建模了专家使用的行为策略,它可以在最小化累计遗憾方面表现得更好,我们建立了一个前瞻性依赖先验的遗憾界限,提出了近似的被告知 RLSVI 算法,可以解释为使用离线数据集进行模仿学习,然后进行在线学习。
Oct, 2023