基于深度模型的强化学习:通过估计不确定性和保守策略优化
本研究旨在利用基于不确定性的深度网络动态模型来提高回报函数学习算法的样本效率,并通过样本传播方法实现不确定性处理,从而解决参数化函数逼近器,如深度网络的性能下降问题,我们提出了一种名为PETS的新算法。与深度强化学习的先进算法进行比较,结果表明我们的方法可以在Asymptotic Performance上与模型自由算法匹配,并且在许多具有挑战性的基准任务中需要明显较少的样本数量(例如,在半猎豹任务中所需样本数量比Soft Actor Critic和Proximal Policy Optimization分别减少8倍和125倍)。
May, 2018
本文提出了一种新的算法框架来设计和分析具有理论保证的基于模型的强化学习算法,该框架将不确定性原则扩展到非线性动态模型,其中模型SLBO在连续控制基准任务上实现了最先进的性能。
Jul, 2018
探索了模型强化学习需要哪些不确定性,论证了好的不确定性必须具有校准性,并描述了一种简单的方法来增强任何模型强化学习代理程序,并表明通过校准模型,可以一致地提高规划、样本复杂度和探索能力,该方法在HalfCheetah MuJoCo任务中实现了最先进的性能,使用50%少的样本比当前领先的方法,并且研究表明,这种校准可以在计算和实施开销最小的情况下提高模型强化学习的性能。
Jun, 2019
本文提出了一种基于模型的加强学习算法(H-UCRL),通过加强其输入空间并直接使用先验不确定性来提高探索,使得优化策略时也能区分先验不确定性和先验确定性。同时,本文针对H-UCRL分析了一般的后悔界,并构建了一个在高斯过程模型下证明的可证明次线性的界,进而表明乐观探索可以轻松地与最先进的强化学习算法以及不同的概率模型相结合。实验表明,本文所提出的算法在已知惩罚的情况下可以显著加速学习,并且在现有的基于模型的加强学习算法中具有广泛的适用性。
Jun, 2020
在强化学习中,针对数据量有限的情况,提出了一种基于不确定性管理技术的深度策略优化方法,可以生成稳健的策略更新,适应学习过程中的不确定性水平。
Dec, 2020
该研究提出一种新的基于模型的线下强化学习算法(COMBO),该算法不需要显式的不确定性估计,通过对已学习模型下的滚动状态动作元组进行价值函数正则化,从而得到状态动作元组价值函数的保守估计。该方法可以优化真实策略价值的下限,且实验表明与先前的线下模型自由和基于模型的方法相比,COMBO在广泛研究的线下RL基准测试中表现持续改进。
Feb, 2021
本研究提出了一种保守的基于模型的演员-评论家方法(CMBAC),通过从多个不准确的模型中学习Q值函数,利用底部k个估计的平均值来优化策略,从而实现高样本效率,尤其是在噪声环境下表现更加优越。
Dec, 2021
本文研究了深度模型与强化学习中的样本效率问题。通过将认知不确定性引入到计划树中,规避了标准方法的不确定性传播,并通过MuZero算法进行了评估验证。 实验结果表明,可以通过不确定性规划实现有效的深度探索,从而显著提高样本效率。
Oct, 2022
在模型基强化学习中,我们考虑了如何量化累积奖励的不确定性,并提出了一种新的不确定Bellman方程来弥补现有工作的不足,该方法能够更准确地告诉我们此前探索的不足。实验表明,这种更精确的不确定性估计方法能够提高样本效率。
Feb, 2023
利用动量匹配离线模型优化的方法(MOMBO),通过确定性传播不确定性,解决了模型基于离线强化学习中由于过度惩罚导致次优策略问题的挑战,并通过在各种环境中的实证研究证明MOMBO是更稳定和更高效的方法。
Jun, 2024