基于模型的离线强化学习中的悲观情况调节动态信念
本文提出了一种悲观的价值迭代算法(PEVI),它通过引入一个不确定性量化器作为惩罚函数来解决离线强化学习中因数据集覆盖不足而导致的不足问题,并在泛化情况下对其次优性建立了数据相关的上限。
Dec, 2020
该研究提出一种新的基于模型的线下强化学习算法(COMBO),该算法不需要显式的不确定性估计,通过对已学习模型下的滚动状态动作元组进行价值函数正则化,从而得到状态动作元组价值函数的保守估计。该方法可以优化真实策略价值的下限,且实验表明与先前的线下模型自由和基于模型的方法相比,COMBO在广泛研究的线下RL基准测试中表现持续改进。
Feb, 2021
研究在线学习中常见的数据不全覆盖情况,提出Constrained Pessimistic Policy Optimization (CPPO)算法,基于模型类别的限制来表示悲观情况,算法可以在数据不全覆盖的情况下具有PAC保证。
Jul, 2021
本研究比较不同的不确定性启发式方法,并设计新的协议来研究它们与其他超参数的交互作用,使用这些洞见,我们展示了使用Bayesian优化选择这些关键超参数可以产生优越的配置,这与现有手动调整的最先进方法大不相同, 从而实现了大幅度的强化学习。
Oct, 2021
本文提出了一种基于纯不确定性驱动的离线策略学习算法 - 悲观引导离线学习 (PBRL),它通过引入一种Q函数的不确定度来量化不确定性,并以此进行悲观更新,以解决离线学习中由行为分布外数据所产生的外推误差问题。实验证明,相比现有算法,PBRL具有更好的性能表现。
Feb, 2022
本文研究了离线强化学习的一个悲观策略Q-learning,针对有限时间的马尔科夫决策过程,通过单一策略密度函数的集中性假设,对其样本复杂度进行了表征,并提出了一种方差减小的悲观Q-learning算法来达到接近最优的样本复杂度。研究结果表明,在离线强化学习中,结合悲观策略和方差减小的模型无关型算法能够提高效率。
Feb, 2022
研究通过行为策略收集的数据集来学习优化策略的离线强化学习算法,并针对潜在状态的影响所产生的混淆偏差和最优策略与行为策略之间的分布转换问题,提出了代理变量悲观策略优化(P3O)算法。
May, 2022
我们提出了一个基于模型的离线强化学习策略性能下限,明确捕捉动力学模型误差和分布不匹配,并提出一种用于最优离线策略选择的实证算法。我们通过建立对价值函数的悲观近似来证明了一种新的安全策略改进定理。我们的关键见解是同时考虑动力学模型和策略的选择:只要动力学模型能够准确地表示给定策略访问的状态-操作对的动态特性,就可能近似该特定策略的值。我们在LQR设置下分析了我们的下限,并在一组D4RL任务的策略选择上展示了有竞争力的性能下限。
Jan, 2023
我们提出了一个简单而有效的基于模型的离线强化学习框架ORPO,通过提倡更多的离群值扩展,基于乐观的MDP生成乐观模型推演用于悲观的离线策略优化,并在理论上证明ORPO训练出的策略在线性MDP中具有下界,实验结果显示我们的框架在广泛应用的基准测试中显著优于P-MDP基线,尤其在需要泛化的问题上表现出明显优势。
Jan, 2024
离线强化学习(RL)在探索可能成本高昂或不安全的真实世界应用中至关重要。然而,离线学习的策略通常是次优的,需要进一步进行在线微调。本文解决了离线到在线微调的基本困境:如果智能体保持悲观态度,可能无法学到更好的策略,而如果直接变得乐观,性能可能会突然下降。我们证明贝叶斯设计原则在解决这种困境中至关重要。智能体不应采取乐观或悲观的策略,而是应根据其对最优策略的信念采取行动。这样的概率匹配智能体可以避免性能突然下降,同时保证找到最优策略。基于我们的理论发现,我们提出了一种优于现有方法的新算法,在各种基准测试中展示了我们方法的有效性。总体而言,所提出的方法为离线到在线RL提供了一种新的视角,有潜力使离线数据的学习更加有效。
May, 2024