ICMLMay, 2021

深度强化学习的谱规范化:优化视角

TL;DR通过对价值函数估计器进行规范化,约束单层的 Lipschitz 常数,使用谱归一化可以使 Categorical-DQN 代理的性能达到更详细的 Rainbow 代理,在具有挑战性的 Atari 领域,这些发现表明,需要关注神经部件及其学习动态来处理 Deep Reinforcement Learning 的特殊性。