深度强化学习的谱规范化：优化视角

ICMLMay, 2021

深度强化学习的谱规范化：优化视角

Spectral Normalisation for Deep Reinforcement Learning: an Optimisation Perspective

Florin Gogianu, Tudor Berariu, Mihaela Rosca, Claudia Clopath, Lucian Busoniu...

TL;DR通过对价值函数估计器进行规范化，约束单层的 Lipschitz 常数，使用谱归一化可以使 Categorical-DQN 代理的性能达到更详细的 Rainbow 代理，在具有挑战性的 Atari 领域，这些发现表明，需要关注神经部件及其学习动态来处理 Deep Reinforcement Learning 的特殊性。

Abstract

Most of the recent deep reinforcement learning advances take an RL-centric perspective and focus on refinements of the training objective. We diverge from this view and show we can recover the performance of these developments not by changing the objective, but by regularising the

deep reinforcement learning value-function estimator spectral normalisation atari domain neural component

发现论文，激发创造

多智能体强化学习中的谱归一化效应

本论文探讨了如何在多智能体稀疏奖励场景下学习可靠的评论家，在此基础上研究了如何通过使用谱归一化技术对评论家进行规范化处理，提高对于即使在此复杂的 SMAC 和 RWARE 领域中都能够更加稳定学习的能力。

Dec, 2022

通过谱强化学习适应奖励进度

本文探讨了一种在增量奖励的加强学习任务中，为了解决价值深度强化学习代理人遇到相对没有奖励的区域的问题，提出了一种名为 “Spectral DQN” 的方法，将奖励分解成特定的频率，从而让损失函数平衡，这种方法成功地提高了标准价值法的效率，并在六个 Atari 游戏的测试中表现出非常好的竞争力。

Apr, 2021

用谱范数正则化来提高深度学习的普适性

本研究通过对输入扰动的敏感性来研究基于深度学习的泛化能力，提出了一种简单而有效的正则化方法 —— 谱范数正则化，试验结果证实其比其他基准方法更具有泛化性能。

May, 2017

通过谱归一化来实现可推广性对抗性训练

本研究旨在通过使用谱规范化方法，为深度神经网络在对抗性环境下的训练提供一种有效的正则化策略，以解决其在输入微小的对抗性扰动下缺乏鲁棒性的问题。同时，我们将边界损失延伸到对抗性环境，并限制了多个梯度攻击方案下深度神经网络的泛化误差。

Nov, 2018

克服神经价值近似的光谱偏差

本文探讨了如何通过使用复合神经切向核的傅里叶特征网络来克服多层感知器和神经核回归中存在的高频率成分拟合所需的步骤数指数级增加的问题，以提高深度增强学习的效率和稳定性，并取得了令人瞩目的实验结果。

Jun, 2022

规范化增强视觉强化学习的泛化能力

本文探讨将规范化技术整合到视觉增强学习方法中，以提高其泛化性能，并使用两种规范化技术，CrossNorm 和 SelfNorm，在 DMControl Generalization Benchmark 和 CARLA 上进行实验证明了该方法的有效性并只会对样本效率略微影响。

Jun, 2023

基于正态分布引导的连续控制分布式强化学习

通过使用马尔可夫链中心极限定理，以近似正态分布的形式建模价值分布，分析计算分位数，提出一种基于价值分布的不确定性的策略更新方法，并在 PPO 和 TRPO 算法上进行连续控制任务测试，显示出性能改进。

Aug, 2022

生成对抗网络的谱归一化

本文提出一种名为谱归一化的新颖权重归一化技术，用于稳定生成对抗网络的鉴别器训练。该方法计算轻便，易于应用于现有的实现，并通过在 CIFAR10、STL-10 和 ILSVRC2012 数据集上的实验验证了其有效性，确认谱归一化 GANs 能够生成更好或同质量的图像相对于之前的训练稳定技术。

Feb, 2018

重新审视 Rainbow：促进更具启示性和包容性的深度强化学习研究

本文讨论在计算资源不足的情况下，重点研究小规模环境对于强化学习的科学洞见和降低贫困社区进入门槛的重要性，并通过更深入的研究 Rainbow 算法来证实此论点。

Nov, 2020

策略优化中的正则化问题

通过深度强化学习的控制任务，对传统正则化技术在多种优化算法中的应用及效果进行综合研究，发现传统的正则化技术能够改善学习效果，特别在较难的任务中，说明正则化有助于强化学习中的泛化表现。

Oct, 2019