ICLRFeb, 2018

时序差分模型:无模型深度强化学习用于模型控制

TL;DR介绍了一种可以用于模型无关学习和模型控制的基于目标条件的价值函数,称为时间差分模型,它可以利用状态转移的丰富信息来非常高效地学习,同时达到超过直接基于模型的 RL 方法的渐近性能的实验结果表明,在一系列连续控制任务中,TDM 相比最先进的模型无关和模型相关方法提供了实质性的改进。