深度强化学习的浅层更新

May, 2017

Shallow Updates for Deep Reinforcement Learning

Nir Levine, Tom Zahavy, Daniel J. Mankowitz, Aviv Tamar, Shie Mannor

TL;DR本研究提出了一种名为最小二乘深度 Q 网络 (LS-DQN) 的混合方法，它将由深度强化学习算法学习的丰富特征表示与线性最小二乘方法的稳定性相结合。实验表明，与原始的深度 Q 网络 (DQN) 和 Double-DQN 相比，LS-DQN 在五个 Atari 游戏中均表现出显著的性能提升，此方法优越的性能主要归功于优化最后一层时所使用的大批量线性最小二乘方法。

Abstract

deep reinforcement learning (DRL) methods such as the Deep Q-Network (DQN) have achieved state-of-the-art results in a variety of challenging, high-dimensional domains. This success is mainly attributed to the power of deep neural networks to learn rich domain representations for appro

deep reinforcement learning least squares deep q-network batch reinforcement learning atari games bayesian regularization

发现论文，激发创造

通过贝叶斯深度 Q 网络实现高效探索

这篇论文研究了高维情境下的强化学习，提出了两种基于乐观法和后验采样的算法来解决此问题，并扩展了该方法应用在深度强化学习上，所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式，使其能够充分平衡探索与执行间的权衡，更加有效地应用在 Atari 游戏中。

Feb, 2018

使用浅层强化学习技术控制 Atari 游戏的现状

本文研究深度强化学习算法 DQN 在 Atari 2600 游戏中成功的关键，并提供一种通用的表示方法，以减轻对每个游戏进行表示学习的负担，并为未来 ALE 计算机学习领域提供了可复制和可比性的基准。

Dec, 2015

循环强化学习：一种混合方法

本文研究了一种深度学习方法，将强化学习和监督学习结合，通过长短时记忆网络对隐藏状态的表示进行学习，在部分可观测任务中表现出了很好的性能。

Sep, 2015

SOLAR: 基于深度结构化表示的模型驱动强化学习

本文提出了一种适合于迭代模型增强策略，即使在具有复杂图像观测的情况下，学习简单动态和成本模型的表示方法，使得基于线性二次调节器（LQR）的基于模型的 RL 方法可用于具有图像观测的系统，并在包括通过图像直接操作真实世界机器人臂的操作中评估该方法，发现我们的方法相比其他基于模型的 RL 方法产生更好的最终性能，同时比无模型 RL 更高效。

Aug, 2018

使用深度 Q-Learning 控制优化超参数

本文介绍了一种新颖的强化学习状态、动作和奖励函数的定义，它允许深度 Q 网络（DQN）学习控制优化超参数。我们使用经验重放的 Q 学习，训练两个 DQN 接受目标函数状态表示作为输入，并输出与学习率调整或保持不变的动作相关的预期折扣回报，即 q 值。训练的 DQN 结合基于梯度的更新例程构成了 Q - 梯度下降算法的基础。与传统的优化方法不同，Q - 梯度下降可以结合任何目标统计量，通过变化动作，我们可以深入了解成功的神经网络优化的学习率调整策略。

Feb, 2016

双 Q 学习的深度强化学习

本文针对 DQN 算法中 Q-learning 超估计行动价值的问题，提出了 Double Q-learning 算法，通过将其与深度神经网络结合得到了一种新的算法，并在数个游戏里得到了更好的表现。

Sep, 2015

M$^2$DQN: 一种加速深度 Q 学习网络的强健算法

本文提出了一种基于 Max-Mean loss 的 DQN 框架 (M$^2$DQN)，用于提高强化学习中数据效率的问题，并在几个 gym 游戏中的实验表明，与最广泛使用的技术 Double DQN (DDQN) 相比，该方法在学习速度和性能上都有显著改善。

Sep, 2022

使用人类演示进行神经网络预训练的深度强化学习

通过使用小规模的人类演示来完成深度强化学习网络的预训练，可以更好地发现特征，并且可以使训练时间显著缩短，并可在 Atari 2600 游戏中实现。

Sep, 2017

使用深度强化学习进行代价昂贵的特征分类

本文研究一个分类问题，针对特征的代价进行优化，通过应用神经网络的顺序决策方法来解决分类问题，表现与专为此问题开发的算法相当，并且灵活性高，可通过引入预先训练的高性能分类器来改进。

Nov, 2017

使用深度强化学习学习状态表示以进行查询优化

研究使用深度强化学习在数据库领域中的查询优化问题，特别关注状态表征问题和状态转移函数的构建，并证明该方法在优化查询方面具有潜在的应用价值。

Mar, 2018