May, 2019

深度强化学习中的风险和不确定性估计

TL;DR提出了一个框架,通过学习的 Q 值来区分和估计强化学习中源于有限数据的认识不确定性和源于随机环境的aleatoric不确定性,并引入一种考虑不确定性的 DQN 算法,该算法表现出安全的学习行为,并在 MinAtar 测试中表现出优越性能。