NIPSMay, 2018

在线和近似强化学习中的多步贪心策略

TL;DR本文研究了使用多步贪婪算法的实际应用,发现在软策略更新时,只有更新步长足够大,才能保证单调策略改进,提出了组合在线和近似算法。