利用过去的在线调整进行快速深度强化学习

NIPSOct, 2018

利用过去的在线调整进行快速深度强化学习

Fast deep reinforcement learning using online adjustments from the past

Steven Hansen, Pablo Sprechmann, Alexander Pritzel, André Barreto, Charles Blundell

TL;DR我们提出了 “短暂价值调整（Ephemeral Value Adjustments，EVA）”：一种允许深度强化学习代理快速适应其回放缓冲区中的经验的方法。EVA 通过估计从当前状态附近的回放缓冲区中的经验组成的价值函数来转移神经网络预测的价值。EVA 结合了围绕将类似于情节记忆结构组合到强化学习代理中的一些最近想法：基于插槽的存储、基于内容的检索和基于记忆的规划。我们展示了在演示任务和 Atari 游戏上 EVA 的执行效果。

Abstract

We propose Ephemeral Value Adjusments (EVA): a means of allowing deep reinforcement learning agents to rapidly adapt to experience in their replay buffer. EVA shifts the value predicted by a neural network with an estimate of the value function found by planning over experience tuples

ephemeral value adjustments deep reinforcement learning agents neural network episodic memory-like structures atari games

发现论文，激发创造

基于价值感知的情节记忆离线强化学习

本文提出了一种名为 Value-based Episodic Memory 的离线强化学习方法，该方法使用 V-function 代替 Q-function，并引入 Expectile V-Learning 和 implicit planning 来提高性能。在 D4RL 基准测试中，该方法在大多数任务中实现了优越的性能。

Oct, 2021

神经元事件控制

本文提出了一种深度强化学习代理 —— 神经记忆控制器，该代理能够快速地接受和处理新经验并表现出针对这些经验的行为，并使用半表格化价值函数表示：包含缓慢变化状态表示和快速更新价值函数估计的过去经验缓冲区。研究表明，与其他最先进的通用型深度强化学习代理相比，该代理在各种环境中学习速度明显更快。

Mar, 2017

通过认识价值估计的探索

本文提出了一种称为 epistemic value estimation (EVE) 的方法，用于有效探索在强化学习中的问题，EVE 方法适用于序列决策以及神经网络函数逼近器，利用其可计算的参数的后验概率，能够有效地计算出 epistemic value uncertainty 这一不确定性，经实验验证 EVE 方法有助于在困难的探索任务中实现有效的探索。

Mar, 2023

使用无似然权重的经验回放

本文提出了一种基于稳态分布概率的重要性重排经验的 TD 学习方法，使用无需概率密度函数的估算器来指定优先级权重，将此方法应用于两种竞争性强的学习算法（软演员 - 评论家（SAC）和 Twin Delayed 深度确定性策略梯度（TD3）），在一系列 OpenAI gym 任务中实现了比其他基线方法更高的样本复杂度。

Jun, 2020

深度品质 - 价值学习（DQV 学习）

本文介绍了一种新颖的深度加强学习算法 ——Deep Quality-Value（DQV） Learning。通过测试两个经典强化学习问题和四个 Atari 游戏，结果表明，DQV 比 Deep Q-Learning 和 Double Deep Q-Learning 学习得更快，更好，表明该算法可能是一种比当前 DRL 中已有的同步时差算法表现更好的算法。

Sep, 2018

具备知识整合的记忆高效强化学习

我们提出了一种基于深度 Q 网络算法的记忆效率强化学习算法，通过从目标 Q 网络到当前 Q 网络合并知识，减少遗忘并保持高的样本效率。与基线方法相比，在特征和图像任务中取得了相当或更好的性能，同时减轻了大经验重放缓冲区的负担。

May, 2022

基于模型的价值估计，用于高效的无模型强化学习

本文提出了一种基于模型的价值拓展方法，通过限制想象的深度，控制模型的不确定性，提高了模型自由强化学习算法中学习价值估计的样本复杂度，针对连续控制任务使用了学习到的动态模型。

Feb, 2018

深度多智能体强化学习的稳定经验回放

该研究提出了两种解决 multi-agent reinforcement learning 中 nonstationarity 问题的方法，并在 StarCraft 单元微观管理的分散式变量上得到了成功的实验结果。

Feb, 2017

通过分集反向更新实现高样本效率的深度强化学习

本文提出了具有直接价值传播能力的一种新型深度强化学习算法 ——Episodic Backward Update (EBU)。与传统方法通过经验重放的方式使用均匀随机采样不同，我们的算法通过采样整个回合并将状态值连续传递到前一状态。我们的递归算法实现了高效的计算，允许稀疏和延迟奖励直接通过所采样的全部转移。我们在理论上证明了 EBU 方法的收敛性，并在确定性和随机化环境下进行了实验。尤其是在 Atari 2600 领域的 49 个游戏中，EBU 方法仅使用 5% 和 10% 的采样，就能实现与 DQN 相同的平均和中位数人类归一化性能。

May, 2018

正则化行为价值估计

本文提出一种基于离线强化学习的新方法 Regularized Behavior Value Estimation (R-BVE)，用于解决离线学习中过度估计值所导致的错误问题，该方法在 RL Unplugged ATARI 数据集以及其他数据集上取得了 state-of-the-art 的表现。

Mar, 2021