AAAISep, 2019

用于稳定强化学习的固定时间差分方法

TL;DR本文提出了一种解决强化学习中含有稳定性问题的新型算法 —— 固定时间段时序差分算法,该算法通过对当前概率及其后 $h$ 步概率分别采用 $TD$ 算法进行预测,具有一定的优势。