Jul, 2024

简化深度时序差异学习

TL;DR本论文研究了使用Q-learning和TD算法训练深度强化学习模型时的稳定性问题,并提出了一种无需目标网络即可收敛的TD算法PQN,该算法可以在不牺牲样本效率的情况下比传统DQN算法快50倍,使Q-learning再次成为RL算法的可行替代方案。