Jun, 2018

深度强化学习的随机化先验函数

TL;DR本文讨论强化学习中的不确定性估计问题,为解决序列决策问题提出了一种随机不可训练 “先验” 网络的方法。实验证明该方法对于线性和非线性表示方法均有效,并且相较之前的尝试在大规模问题上表现更佳。