优先扫描是否更好的情节控制？

Nov, 2017

Is prioritized sweeping the better episodic control?

Johanni Brea

TL;DR本研究发现，在确定性树形 Markov 决策过程中，情景控制与优先扫描具有相同的样本效率、内存和计算需求。在一般的确定性和随机环境中，即使记忆和计算需求被限制为与情景控制相等，优先扫描的表现也更好。这些结果表明了优先扫描在部分可观察环境下的泛化能力，以及在功能逼近和可实现性方面的使用率和潜力。

Abstract

episodic control has been proposed as a third approach to reinforcement learning, besides model-free and model-based control, by analogy with the three types of human memory. i.e. episodic, procedural and semanti

episodic control reinforcement learning prioritized sweeping memory computation

发现论文，激发创造

无模型的情节控制

本文探讨海马海马记忆控制应用于深度加强学习，证明该应用比现有的加强学习算法更快地高效解决了一些复杂的连续决策任务。

Jun, 2016

利用剧集记忆解决连续控制问题

本研究使用 Actor-Critic 架构，通过修改 critic 的目标函数，将记忆机制引入连续控制问题中，使用基于经验的记忆缓冲区优先级排列方式，验证了在广泛的行动空间下，使用记忆机制能够提高连续控制中代理的性能，并且相较于最先进的自由模型离线算法，实现了更高的样本效率。

Jun, 2021

连续性情节控制

本文提出了一种新型非参数迭代记忆算法 CEC 来解决具有连续动作空间的顺序决策问题，同时在多个稀疏奖励连续控制环境中表现出比最先进的无模型 RL 和记忆扩展 RL 算法更快的学习速度和更好的长期表现。

Nov, 2022

持续模型学习的情节记忆

本研究探讨在具有有限内存容量的情境下，如何运用基于分层贝叶斯推断的模型选择，以及利用存储在记忆库中的数据解决模型选择中的基本问题。

Dec, 2017

神经元事件控制

本文提出了一种深度强化学习代理 —— 神经记忆控制器，该代理能够快速地接受和处理新经验并表现出针对这些经验的行为，并使用半表格化价值函数表示：包含缓慢变化状态表示和快速更新价值函数估计的过去经验缓冲区。研究表明，与其他最先进的通用型深度强化学习代理相比，该代理在各种环境中学习速度明显更快。

Mar, 2017

双记忆强化学习

本研究提出了一种名为 2M 的方法，将历史记忆存储和强化学习相结合，以提高数据效率并在深度强化学习方面取得更好的表现，同时也提供了将任何历史记忆代理与其他非策略强化学习算法相结合的通用框架。

Apr, 2023

基于记忆的循环神经网络控制

本研究利用 RNN 与反向传播算法，扩展了两个连续控制的无模型算法，能够成功地解决大量的物理控制问题，包括部分受到噪声干扰而需要信息短暂整合的问题，以及需要在多个时间步骤中保留信息的长期记忆问题，并且使用简化版本的 Morris 水迷宫任务进行了探索与记忆结合问题的研究。同时，通过直接从像素中学习，能够处理高维度的观测问题。

Dec, 2015

生态学强化学习

本文讨论了针对非情节式、奖励稀疏的强化学习任务中的环境特性，如何应用 “环境塑形” 和 “环境动态性” 等方法来提升学习效果，并通过实验验证了这些方法的有效性。

Jun, 2020

具备小型备份的优先扫描规划

介绍了一种替代传统规划操作的新型小型备份方法，以提高模型基于强化学习的规划效率，并通过基于小型备份的优先扫描的方法实现了显着的性能改进。

Jan, 2013

扩展状态奖励空间的情节强化学习

通过引入扩展状态 - 奖励空间的高效 EC-based DRL 框架，我们的方法能够同时充分利用检索信息和通过时序差分 (TD) 损失更好地评估状态值，从而在具有挑战性的任务中表现出优越性。

Jan, 2024