ICMLJul, 2020

Meta-SAC: 通过 Metagradient 自动调整软演员批评家的熵温度

TL;DR本文提出一种新方法 Meta-SAC,基于 Soft Actor-Critic (SAC) 算法,使用元梯度及元目标来自动调整熵温度,以平衡任务原始奖励与策略熵,从而解决了探索利用困境的问题,并在 Mujoco 基准测试任务中达到了令人满意的性能。