跨多个数量级学习价值

Feb, 2016

Learning functions across many orders of magnitudes

Hado van Hasselt, Arthur Guez, Matteo Hessel, David Silver

TL;DR本文主要研究如何通过自适应标准化目标值来解决学习算法对函数尺度缩放的不变性问题，尤其是在价值反馈学习和Atari游戏中，该方法能够消除领域特定的启发式方法，提高整体表现。

Abstract

Learning non-linear functions can be hard when the magnitude of the target function is unknown beforehand, as most learning algorithms are not scale invariant. We propose an algorithm to adaptively normalize thes

发现论文，激发创造

惩罚估计在统计线性估计中的应用：强化学习

探讨线性逆问题的正则化估计，提出一种不需要数据分割的正则化参数选择方法，研究结果为强化学习中线性价值函数估计提供了新的理解和限制。

Jun, 2012

双 Q 学习的深度强化学习

本文针对DQN算法中Q-learning超估计行动价值的问题，提出了Double Q-learning算法，通过将其与深度神经网络结合得到了一种新的算法，并在数个游戏里得到了更好的表现。

Sep, 2015

探索性梯度提升用于复杂领域强化学习

该研究提出一种非参数函数逼近器和基于状态抽象和信息获取的不确定性探索策略来处理高维环境下的强化学习挑战，并在Minecraft游戏中进行了验证，结果表明这两种技术结合起来在标准强化学习任务中表现出色并在高维观察空间的任务中优于基准算法，这为强化学习技术在真实世界中的应用提供了一个有力的方法。

Mar, 2016

强化学习中的神经网络函数逼近的Sigmoid加权线性单元

本研究旨在提出两种适用于强化学习中神经网络的激活函数，即Sigmoid-weighted Linear Unit(SiLU)和其导数函数(dSiLU)。同时提出使用在线学习和简单的动态退火softmax进行行动选择，可以与Deep Q Network（DQN）相竞争。此外，还在Atari 2600和SZ-Tetris等游戏方面，提出的改进网络和学习策略实现了最先进的结果。

Feb, 2017

仔细观察：在Atari上实现一致的性能表现

在本文中，我们提出了一个算法，它能够解决深度强化学习在Atari游戏集上遇到的三个关键难题，包括处理不同密度和规模的奖励分布、思考长时间序列以及有效地探索，该算法超过了人类在40个游戏上的表现，其中包括 Montezuma's Revenge 的第一关。

May, 2018

DQN中的泛化和正则化

本研究提出了一种在不同Atari 2600游戏模式下进行强化学习泛化评估的方法，并证明DQN存在过度训练环境的问题；通过适当运用dropout和正则化，以及优化表示来提高泛化能力，有效提升DQN的样本效率。

Sep, 2018

深度强化学习的谱规范化：优化视角

通过对价值函数估计器进行规范化，约束单层的Lipschitz常数，使用谱归一化可以使Categorical-DQN代理的性能达到更详细的Rainbow代理，在具有挑战性的Atari领域，这些发现表明，需要关注神经部件及其学习动态来处理Deep Reinforcement Learning的特殊性。

May, 2021

基于核范数最大化的好奇心驱动学习

本文提出了利用核范数最大化的好奇心探索新颖性的方法，以解决强化学习中固有奖励的稀疏性和嘈杂性所带来的挑战，实验结果表明该方法在 Atari 游戏子集中达到了超过其他好奇心方法的性能水平。

May, 2022

停止回归：通过分类训练值函数用于可扩展深度强化学习

将分类交叉熵用于训练价值函数可显著提高深度强化学习的扩展性。

Mar, 2024

强化学习中的归一化与有效学习率

在深度强化学习和持续学习文献中，标准化层近年来得到了重新关注，几篇论文强调了其改善损失函数曲面条件和对抗高估偏差等多种好处；然而，标准化带来了一个微妙但重要的副作用：网络参数范数增长与有效学习率衰减之间的等价性，这在持续学习环境中变得有问题，因为有效学习率可能相对于学习问题的时间尺度过快地衰减至接近零。我们提出了一种称为Normalize-and-Project（NaP）的简单重新参数化方法，将标准化层的插入与权重投影相结合，确保有效学习率在训练过程中保持恒定；该技术不仅是深度强化学习中更好地理解学习率调度的强大分析工具，还是在合成可塑性损失基准测试以及Arcade Learning Environment的单任务和顺序变体中提高非稳态稳健性的手段。我们还证明了我们的方法可以轻松应用于热门架构，如ResNets和transformers，同时在常见的稳态基准测试中恢复并在某些情况下甚至稍微改善基础模型的性能。

Jul, 2024