Jun, 2018

TD 或非 TD:深度强化学习中时间差分作用的分析

TL;DR本文对经典强化学习算法中的 TD 算法在深度强化学习中的优劣进行了重新评估,并发现在特定的因素下,如奖励稀疏、奖励延迟和任务的感知复杂性等,有限时的 MC 方法不亚于 TD,这使得 MC 成为深度强化学习中可替代 TD 的选择。