Aug, 2021

统计临界点边缘深度强化学习

TL;DR本文通过案例研究 Atari 100k 游戏数据集,强调在少量训练运行的深度强化学习算法中,为保证结果准确性和防止领域进展停滞,不可忽略数据的不确定性,提出用区间估计来评估强化学习算法的表现,并在常用数据集上分析了已有算法的性能,提出更为严谨的性能评估方法,并配有开源库 rliable。