double average q-learning | BriefGPT

关键词double average q-learning

搜索结果 - 1

重新审视离散化软 Actor-Critic 算法
本文研究了将 soft actor-critic (SAC) 从连续动作空间适应到离散动作空间的方法，并提出了熵惩罚和双平均 Q-learning 以解决 Q 值低估和性能不稳定问题，通过在 Atari 游戏和大型多人在线战术竞技游戏上的实
PDF2 years ago