Feb, 2020

一个自调节的演员 - 评论算法

TL;DR本文介绍了一种使用 metagradients 自动调整强化学习中超参数的算法 (Self-Tuning Actor-Critic),此算法能够增加自主任务的数目并使用一个新颖的 leaky V-trace operator 来提高脱机学习的性能。在实验中,使用此算法进行了强化学习实验来证明算法的有效性。