Apr, 2022

针对离线强化学习的高斯混合评论家的重新访问:一种基于样本的方法

TL;DR本文介绍了一种新的离线强化学习算法(基于混合高斯的 Actor-Critic 方法),该方法成功地解决了 C51 方法中在最小值和最大值以及所使用的区间数上的先验知识的限制,并在众多挑战性的任务上取得了最先进的性能。