Apr, 2022
针对离线强化学习的高斯混合评论家的重新访问:一种基于样本的方法
Revisiting Gaussian mixture critics in off-policy reinforcement learning: a sample-based approach
Bobak Shahriari, Abbas Abdolmaleki, Arunkumar Byravan, Abe Friesen, Siqi Liu...
TL;DR本文介绍了一种新的离线强化学习算法(基于混合高斯的 Actor-Critic 方法),该方法成功地解决了 C51 方法中在最小值和最大值以及所使用的区间数上的先验知识的限制,并在众多挑战性的任务上取得了最先进的性能。