May, 2022

强化学习与终结者

TL;DR文章探讨了外部中断对强化学习的影响,提出了 TerMDP 框架并应用于驾驶和 MinAtar 测试中,提出了一种基于动态折扣因子和置信区间的高效算法,并与多种基准方法相比较获得了显著提升