BriefGPT.xyz
Ask
alpha
关键词
double average q-learning
搜索结果 - 1
重新审视离散化软 Actor-Critic 算法
本文研究了将 soft actor-critic (SAC) 从连续动作空间适应到离散动作空间的方法,并提出了熵惩罚和双平均 Q-learning 以解决 Q 值低估和性能不稳定问题,通过在 Atari 游戏和大型多人在线战术竞技游戏上的实
→
PDF
2 years ago
Prev
Next