Jun, 2018
TD 或非 TD:深度强化学习中时间差分作用的分析
TD or not TD: Analyzing the Role of Temporal Differencing in Deep Reinforcement Learning
Artemij Amiranashvili, Alexey Dosovitskiy, Vladlen Koltun, Thomas Brox
TL;DR本文对经典强化学习算法中的 TD 算法在深度强化学习中的优劣进行了重新评估,并发现在特定的因素下,如奖励稀疏、奖励延迟和任务的感知复杂性等,有限时的 MC 方法不亚于 TD,这使得 MC 成为深度强化学习中可替代 TD 的选择。