使用 Reservoir Sampling 将情景记忆集成到强化学习智能体中

Jun, 2018

使用 Reservoir Sampling 将情景记忆集成到强化学习智能体中

Integrating Episodic Memory into a Reinforcement Learning Agent using Reservoir Sampling

Kenny J. Young, Richard S. Sutton, Shuo Yang

TL;DR该文研究了利用固定数量的过去状态来维护一个外部内存的新算法，使得深度强化学习代理能够在线记忆有用的状态，并可以在在线强化学习设置中实现梯度估计。

Abstract

episodic memory is a psychology term which refers to the ability to recall specific events from the past. We suggest one advantage of this particular type of memory is the ability to easily assign credit to a specific state when remembered information is found to be useful. Inspired by

episodic memory external memory deep reinforcement learning reservoir sampling online computation

发现论文，激发创造

利用剧集记忆解决连续控制问题

本研究使用 Actor-Critic 架构，通过修改 critic 的目标函数，将记忆机制引入连续控制问题中，使用基于经验的记忆缓冲区优先级排列方式，验证了在广泛的行动空间下，使用记忆机制能够提高连续控制中代理的性能，并且相较于最先进的自由模型离线算法，实现了更高的样本效率。

Jun, 2021

具备共享情节记忆的持续和多任务强化学习

本文介绍了一种神经架构 (SEM)，其包含共享追忆存储器的模型，便于在多项任务中学习并顺序执行，实现持续学习和在同一环境中获取新技能的效果。

May, 2019

持续模型学习的情节记忆

本研究探讨在具有有限内存容量的情境下，如何运用基于分层贝叶斯推断的模型选择，以及利用存储在记忆库中的数据解决模型选择中的基本问题。

Dec, 2017

无模型的情节控制

本文探讨海马海马记忆控制应用于深度加强学习，证明该应用比现有的加强学习算法更快地高效解决了一些复杂的连续决策任务。

Jun, 2016

关于连续学习中微小情节记忆的研究

该研究实证分析了在连续学习过程中，引入极小的叙事性记忆在任务之间转移知识的有效性，并发现相较于特定的连续学习方法，该方法能利用极小的记忆显著提升泛化能力，对小样本问题有一定的启示。

Feb, 2019

情节记忆深度 Q 网络

本文提出了一种基于生物学启发的强化学习算法 Episodic Memory Deep Q-Networks（EMDQN），该算法利用情节内存来监督代理在训练过程中，实验表明我们提出的方法可以提高样本效率，更容易找到好策略，在 Atari 游戏上只需要 1/5 的交互就能达到许多具有最先进性能的情况，明显优于常规 DQN 和其他情节记忆基 RL 算法。

May, 2018

双记忆强化学习

本研究提出了一种名为 2M 的方法，将历史记忆存储和强化学习相结合，以提高数据效率并在深度强化学习方面取得更好的表现，同时也提供了将任何历史记忆代理与其他非策略强化学习算法相结合的通用框架。

Apr, 2023

具有工作内存和情节内存的强化学习通用化

本文构建了一个多样的记忆任务集，测试智能体在训练中学到的知识是否能推广到具有多种不同记忆维度的测试集上，探究了不同记忆系统组合的智能体网络的性能表现。

Oct, 2019

使用情节记忆从深度强化学习生成解释

通过使用含有情节记忆系统的深度强化学习代理，识别和重述关键决策，生成人类可读的简短解释，可用于加快初学的无算法依赖深度强化学习代理的学习。

May, 2022

选择性经验回放用于终身学习

本文研究通过经验重放的方法，利用 “distribution matching” 算法来防止深度神经网络多任务学习中的严重忘却问题。实验探索了不同体验选择策略的优缺点，结果表明分布匹配算法可以成功避免严重忘却问题，并且在所有测试领域中始终表现最佳。同时我们发现，当部分任务的重要性比其他任务更高时，最大化状态空间覆盖率是有福利的。

Feb, 2018