Feb, 2018

强化学习中高效的偏差 - 跨度 - 约束探索 - 利用

TL;DRSCAL 是一种用于解决未知弱通信马尔可夫决策过程中的有效探索和开发问题的算法,通过对 REGAL.C 的优化问题进行了放松和分析,提供了第一个可计算的有效算法,并表明 SCAL 在具有大直径和小偏差跨度的 MDP 中显著优于 UCRL。