Jul, 2020

慕尼黑强化学习

TL;DR本文提出一种利用当前策略对强化学习中未知状态值的估计方法,以及通过在 DQN 和 IQN 算法中添加缩放的 log 策略函数获得与分布式 RL 相竞争的新代理的实验研究和理论分析。