Jun, 2020

DREAM: 具有优势基线和无模型学习的深度减少遗憾

TL;DR本文介绍了一种名为 DREAM 的深度强化学习算法,该算法能够在具有多个代理的不完全信息游戏中找到最优策略,其中 DREAM 在两人零和游戏中收敛于 Nash 均衡,在其他游戏中收敛于广义协调均衡,该算法不需要对游戏进行完美的模拟器,通过实验证明了 DREAM 在流行的基准游戏中达到了最先进的无模型算法的性能,甚至与需要严格模拟的算法互相竞争。