提高基于模型的离线强化学习的确定性不确定性传播
该研究提出一种新的基于模型的线下强化学习算法(COMBO),该算法不需要显式的不确定性估计,通过对已学习模型下的滚动状态动作元组进行价值函数正则化,从而得到状态动作元组价值函数的保守估计。该方法可以优化真实策略价值的下限,且实验表明与先前的线下模型自由和基于模型的方法相比,COMBO在广泛研究的线下RL基准测试中表现持续改进。
Feb, 2021
本研究比较不同的不确定性启发式方法,并设计新的协议来研究它们与其他超参数的交互作用,使用这些洞见,我们展示了使用Bayesian优化选择这些关键超参数可以产生优越的配置,这与现有手动调整的最先进方法大不相同, 从而实现了大幅度的强化学习。
Oct, 2021
本文提出了一种基于纯不确定性驱动的离线策略学习算法 - 悲观引导离线学习 (PBRL),它通过引入一种Q函数的不确定度来量化不确定性,并以此进行悲观更新,以解决离线学习中由行为分布外数据所产生的外推误差问题。实验证明,相比现有算法,PBRL具有更好的性能表现。
Feb, 2022
我们提出了一个基于模型的离线强化学习策略性能下限,明确捕捉动力学模型误差和分布不匹配,并提出一种用于最优离线策略选择的实证算法。我们通过建立对价值函数的悲观近似来证明了一种新的安全策略改进定理。我们的关键见解是同时考虑动力学模型和策略的选择:只要动力学模型能够准确地表示给定策略访问的状态-操作对的动态特性,就可能近似该特定策略的值。我们在LQR设置下分析了我们的下限,并在一组D4RL任务的策略选择上展示了有竞争力的性能下限。
Jan, 2023
基于离线数据的强化学习方法,通常在实际应用中性能较低,本篇研究提出了一种基于不确定性的 Simple Unified uNcertainty-Guided (SUNG) 框架,通过量化不确定性,设计了一种乐观的探索策略,以及一种自适应的开发方法,在多个数据集上取得了最新的在线调优表现。
Jun, 2023
该研究探究了使用离线RL和IL进行策略搜索算法的离线优化范式,并要求更加小心地考虑这些方法是如何与不确定性评估相互作用的。同时,该研究提出了一种名为Score-Guided Planning(SGP)的规划算法,它利用分数匹配来实现高维问题中的一阶规划。
Jun, 2023
分布式鲁棒离线强化学习是针对环境扰动进行鲁棒策略训练的一种方法,当面对大规模状态-动作空间时需要进行函数逼近。本研究提出了一种最小极大值最优算法,通过对线性参数化的模型进行实现,探索了实例依赖次优性分析在鲁棒离线强化学习中的应用,并揭示了鲁棒离线强化学习中的函数逼近与标准离线强化学习所面临的困难之间的本质区别。
Mar, 2024
本研究解决了基于模型的离线强化学习中分布变化带来的挑战,提出了新的理论框架来分析模型偏差和策略变化的影响。通过引入关注变化的奖励(SAR),该方法优化了价值学习和策略训练,实验证明SAMBO-RL在多个基准测试中表现出色,表明其在实际应用中的有效性。
Aug, 2024