ICMLDec, 2021

模型 - 价值不一致作为认知不确定性的信号

TL;DR本文提出了一种新的基于模型的强化学习算法,通过利用值函数,将模型不同长度的展开作为一种集合,称之为 “implicit value ensemble”,并应用于探索、在分布变化时安全操作以及学习模型规划等方面,实证结果表明这种方法对提升探索效率和增强可靠性有显著的效果。