Sep, 2022

重新审视离散化软 Actor-Critic 算法

TL;DR本文研究了将 soft actor-critic (SAC) 从连续动作空间适应到离散动作空间的方法,并提出了熵惩罚和双平均 Q-learning 以解决 Q 值低估和性能不稳定问题,通过在 Atari 游戏和大型多人在线战术竞技游戏上的实验验证了所提出方法的有效性。