Feb, 2020

使用深度确定性动态梯度估计 Q(s,s')

TL;DR本文提出了一种新型的价值函数Q(s, s'),用于表达从状态s转移到邻近状态s'并在此之后最优行动的效用,通过构建能够最大化Q值的前向动力学模型,得出最优策略并实现离线学习。该方法在价值函数转移、冗余行动空间内学习和在末优策略或完全随机策略下离线学习等方面具有优势。