Jun, 2020

通过乐观策略搜索和规划实现高效的基于模型的强化学习

TL;DR本文提出了一种基于模型的加强学习算法(H-UCRL),通过加强其输入空间并直接使用先验不确定性来提高探索,使得优化策略时也能区分先验不确定性和先验确定性。同时,本文针对H-UCRL分析了一般的后悔界,并构建了一个在高斯过程模型下证明的可证明次线性的界,进而表明乐观探索可以轻松地与最先进的强化学习算法以及不同的概率模型相结合。实验表明,本文所提出的算法在已知惩罚的情况下可以显著加速学习,并且在现有的基于模型的加强学习算法中具有广泛的适用性。