连续性情节控制

Nov, 2022

Continuous Episodic Control

Zhao Yang, Thomas M. Moerland, Mike Preuss, Aske Plaat

TL;DR本文提出了一种新型非参数迭代记忆算法 CEC 来解决具有连续动作空间的顺序决策问题，同时在多个稀疏奖励连续控制环境中表现出比最先进的无模型 RL 和记忆扩展 RL 算法更快的学习速度和更好的长期表现。

Abstract

non-parametric episodic memory can be used to quickly latch onto high-reward experience in reinforcement learning tasks. In contrast to parametric deep →

non-parametric episodic memory reinforcement learning continuous control environments sequential decision making cec

发现论文，激发创造

利用剧集记忆解决连续控制问题

本研究使用 Actor-Critic 架构，通过修改 critic 的目标函数，将记忆机制引入连续控制问题中，使用基于经验的记忆缓冲区优先级排列方式，验证了在广泛的行动空间下，使用记忆机制能够提高连续控制中代理的性能，并且相较于最先进的自由模型离线算法，实现了更高的样本效率。

Jun, 2021

无模型的情节控制

本文探讨海马海马记忆控制应用于深度加强学习，证明该应用比现有的加强学习算法更快地高效解决了一些复杂的连续决策任务。

Jun, 2016

神经元事件控制

本文提出了一种深度强化学习代理 —— 神经记忆控制器，该代理能够快速地接受和处理新经验并表现出针对这些经验的行为，并使用半表格化价值函数表示：包含缓慢变化状态表示和快速更新价值函数估计的过去经验缓冲区。研究表明，与其他最先进的通用型深度强化学习代理相比，该代理在各种环境中学习速度明显更快。

Mar, 2017

双记忆强化学习

本研究提出了一种名为 2M 的方法，将历史记忆存储和强化学习相结合，以提高数据效率并在深度强化学习方面取得更好的表现，同时也提供了将任何历史记忆代理与其他非策略强化学习算法相结合的通用框架。

Apr, 2023

关于连续学习中微小情节记忆的研究

该研究实证分析了在连续学习过程中，引入极小的叙事性记忆在任务之间转移知识的有效性，并发现相较于特定的连续学习方法，该方法能利用极小的记忆显著提升泛化能力，对小样本问题有一定的启示。

Feb, 2019

实时规划的高样本利用率交叉熵方法

本文提出了改进的 CEM 算法，包括时间相关动作和内存等创新性的增加，可以在高维控制问题中使用，减少了采样次数并提高了 1.2-10 倍的性能表现。

Aug, 2020

扩展状态奖励空间的情节强化学习

通过引入扩展状态 - 奖励空间的高效 EC-based DRL 框架，我们的方法能够同时充分利用检索信息和通过时序差分 (TD) 损失更好地评估状态值，从而在具有挑战性的任务中表现出优越性。

Jan, 2024

优先扫描是否更好的情节控制？

本研究发现，在确定性树形 Markov 决策过程中，情景控制与优先扫描具有相同的样本效率、内存和计算需求。在一般的确定性和随机环境中，即使记忆和计算需求被限制为与情景控制相等，优先扫描的表现也更好。这些结果表明了优先扫描在部分可观察环境下的泛化能力，以及在功能逼近和可实现性方面的使用率和潜力。

Nov, 2017

具备共享情节记忆的持续和多任务强化学习

本文介绍了一种神经架构 (SEM)，其包含共享追忆存储器的模型，便于在多项任务中学习并顺序执行，实现持续学习和在同一环境中获取新技能的效果。

May, 2019

具有状态抽象的神经元情节控制

本文提出了一个基于状态抽象的故事式控制算法 NECSA，它采用了更全面的故事记忆、新颖的状态评估以及多步状态分析，对 OpenAI gym 域中的 MuJoCo 和 Atari 任务进行了评估，实验结果表明 NECSA 比最先进的故事式控制方法具有更高的样本效率。

Jan, 2023