记忆镜头：一个代理程序使用了多少内存？

NIPSNov, 2016

记忆镜头：一个代理程序使用了多少内存？

Memory Lens: How Much Memory Does an Agent Use?

Christoph Dann, Katja Hofmann, Sebastian Nowozin

TL;DR提出一种新方法来研究强化学习策略所使用的内部记忆，通过估计行为历史与代理人当前动作之间的互信息来估计相关的过去信息量，并在被动设置下进行这种估计。此外，通过显示它产生了一个实现无关的最小内存容量下界，为我们的方法提供了理论上的理由。作者对对 DQN 政策上的 atari 游戏做出评估，并展示了在 49 个游戏中不同的记忆使用情况。

Abstract

We propose a new method to study the internal memory used by reinforcement learning policies. We estimate the amount of relevant past information by estimating mutual information between behavior histories and the current action of an agent. We perform this estimation in the passive se

reinforcement learning memory capacity mutual information dqn policies atari frames

发现论文，激发创造

目标导向智能体的无监督预测记忆

本文介绍了一个新的模型 MERLIN，其通过利用可预测的建模引导记忆形成，使单一的学习智能体架构能够在心理学和神经生物学中解决基本行为任务。

Mar, 2018

具有工作内存和情节内存的强化学习通用化

本文构建了一个多样的记忆任务集，测试智能体在训练中学到的知识是否能推广到具有多种不同记忆维度的测试集上，探究了不同记忆系统组合的智能体网络的性能表现。

Oct, 2019

具备知识整合的记忆高效强化学习

我们提出了一种基于深度 Q 网络算法的记忆效率强化学习算法，通过从目标 Q 网络到当前 Q 网络合并知识，减少遗忘并保持高的样本效率。与基线方法相比，在特征和图像任务中取得了相当或更好的性能，同时减轻了大经验重放缓冲区的负担。

May, 2022

使用连续内存状态学习深度神经网络策略

通过内部记忆的方法，学习适用于高维连续系统（如机器人操纵器）的策略，通过把记忆状态加到系统的状态和动作空间中，使用有监督学习方法 Guided Policy Search 分解策略搜索问题，并通过轨迹优化和监督学习相结合的方式获得具有有效记忆和回忆策略的复杂策略

Jul, 2015

强化学习中记忆回放的影响

本研究提出了一种使用经验回放的深度强化学习模型，并通过 ODE 模型及实验进行研究发现，在适当的记忆大小下，可以加速学习并提高代理人的表现，但当记忆容量偏大或偏小时，学习反而变慢，同时也证明了优先重放经验不一定有助于提高代理人的学习效果。最后，我们提出了一种自适应调整记忆缓冲区大小的算法，其表现良好。

Oct, 2017

基于记忆的轨迹条件策略在稀疏奖励学习中的应用

本文提出了一种基于轨迹条件的策略学习方法，通过从内存缓冲区中展开多种多样的过去轨迹，可帮助策略创造者更好地探索状态空间，并在各种复杂任务中显著提高模型性能。（本方法可以不用专家演示或将模型重置为任意状态，在 Atari 游戏 Montezuma's Revenge 和 Pitfall 的五十亿帧内取得了最先进的得分）

Jul, 2019

深思熟虑：带有内部工作记忆的决策 Transformer

本文提出了一种基于内部工作记忆模块的决策制定代理，可以通过存储、混合和检索信息来改善其在不同下游任务中的训练效率和泛化能力，并进一步证明记忆微调可以增强所提出架构的适应性。

May, 2023

利用剧集记忆解决连续控制问题

本研究使用 Actor-Critic 架构，通过修改 critic 的目标函数，将记忆机制引入连续控制问题中，使用基于经验的记忆缓冲区优先级排列方式，验证了在广泛的行动空间下，使用记忆机制能够提高连续控制中代理的性能，并且相较于最先进的自由模型离线算法，实现了更高的样本效率。

Jun, 2021

情节记忆深度 Q 网络

本文提出了一种基于生物学启发的强化学习算法 Episodic Memory Deep Q-Networks（EMDQN），该算法利用情节内存来监督代理在训练过程中，实验表明我们提出的方法可以提高样本效率，更容易找到好策略，在 Atari 游戏上只需要 1/5 的交互就能达到许多具有最先进性能的情况，明显优于常规 DQN 和其他情节记忆基 RL 算法。

May, 2018

使用情节记忆从深度强化学习生成解释

通过使用含有情节记忆系统的深度强化学习代理，识别和重述关键决策，生成人类可读的简短解释，可用于加快初学的无算法依赖深度强化学习代理的学习。

May, 2022