Apr, 2020

参考优势分解下几乎最优无模型强化学习

TL;DR使用 UCB-Advantage 算法解决了有限时间间隔下马尔可夫决策过程的强化学习问题,证明了该算法得到了比以前更好的失望值,并且在并发强化学习中表现出了较低的本地切换成本。