ICMLJul, 2020

有限模型容量下的选择性 Dyna-style 规划

TL;DR该研究探讨了在模型不完备的情况下,通过估计预测不确定性(如起源于先验模型不充分的模型不适配性等因素)的方法,选择性地使用模型,以此提高强化学习算法的学习效果。