AAAIJul, 2020

通过矩匹配实现分布式强化学习

TL;DR本文提出了一种无限制统计学习方法,利用神经网络和最大均值偏差技术来匹配收益分布和 Bellman 目标,适用于分布式 RL 并在 Atari 游戏中获得了优异表现。