跨多个数量级学习价值
本文针对DQN算法中Q-learning超估计行动价值的问题,提出了Double Q-learning算法,通过将其与深度神经网络结合得到了一种新的算法,并在数个游戏里得到了更好的表现。
Sep, 2015
该研究提出一种非参数函数逼近器和基于状态抽象和信息获取的不确定性探索策略来处理高维环境下的强化学习挑战,并在Minecraft游戏中进行了验证,结果表明这两种技术结合起来在标准强化学习任务中表现出色并在高维观察空间的任务中优于基准算法,这为强化学习技术在真实世界中的应用提供了一个有力的方法。
Mar, 2016
本研究旨在提出两种适用于强化学习中神经网络的激活函数,即Sigmoid-weighted Linear Unit(SiLU)和其导数函数(dSiLU)。同时提出使用在线学习和简单的动态退火softmax进行行动选择,可以与Deep Q Network(DQN)相竞争。此外,还在Atari 2600和SZ-Tetris等游戏方面,提出的改进网络和学习策略实现了最先进的结果。
Feb, 2017
在本文中,我们提出了一个算法,它能够解决深度强化学习在Atari游戏集上遇到的三个关键难题,包括处理不同密度和规模的奖励分布、思考长时间序列以及有效地探索,该算法超过了人类在40个游戏上的表现,其中包括 Montezuma's Revenge 的第一关。
May, 2018
本研究提出了一种在不同Atari 2600游戏模式下进行强化学习泛化评估的方法,并证明DQN存在过度训练环境的问题;通过适当运用dropout和正则化,以及优化表示来提高泛化能力,有效提升DQN的样本效率。
Sep, 2018
通过对价值函数估计器进行规范化,约束单层的Lipschitz常数,使用谱归一化可以使Categorical-DQN代理的性能达到更详细的Rainbow代理,在具有挑战性的Atari领域,这些发现表明,需要关注神经部件及其学习动态来处理Deep Reinforcement Learning的特殊性。
May, 2021
本文提出了利用核范数最大化的好奇心探索新颖性的方法,以解决强化学习中固有奖励的稀疏性和嘈杂性所带来的挑战,实验结果表明该方法在 Atari 游戏子集中达到了超过其他好奇心方法的性能水平。
May, 2022
在深度强化学习和持续学习文献中,标准化层近年来得到了重新关注,几篇论文强调了其改善损失函数曲面条件和对抗高估偏差等多种好处;然而,标准化带来了一个微妙但重要的副作用:网络参数范数增长与有效学习率衰减之间的等价性,这在持续学习环境中变得有问题,因为有效学习率可能相对于学习问题的时间尺度过快地衰减至接近零。我们提出了一种称为Normalize-and-Project(NaP)的简单重新参数化方法,将标准化层的插入与权重投影相结合,确保有效学习率在训练过程中保持恒定;该技术不仅是深度强化学习中更好地理解学习率调度的强大分析工具,还是在合成可塑性损失基准测试以及Arcade Learning Environment的单任务和顺序变体中提高非稳态稳健性的手段。我们还证明了我们的方法可以轻松应用于热门架构,如ResNets和transformers,同时在常见的稳态基准测试中恢复并在某些情况下甚至稍微改善基础模型的性能。
Jul, 2024