本文探讨海马海马记忆控制应用于深度加强学习,证明该应用比现有的加强学习算法更快地高效解决了一些复杂的连续决策任务。
Jun, 2016
本研究使用 Actor-Critic 架构,通过修改 critic 的目标函数,将记忆机制引入连续控制问题中,使用基于经验的记忆缓冲区优先级排列方式,验证了在广泛的行动空间下,使用记忆机制能够提高连续控制中代理的性能,并且相较于最先进的自由模型离线算法,实现了更高的样本效率。
Jun, 2021
本文提出了一种新型非参数迭代记忆算法 CEC 来解决具有连续动作空间的顺序决策问题,同时在多个稀疏奖励连续控制环境中表现出比最先进的无模型 RL 和记忆扩展 RL 算法更快的学习速度和更好的长期表现。
Nov, 2022
本研究探讨在具有有限内存容量的情境下,如何运用基于分层贝叶斯推断的模型选择,以及利用存储在记忆库中的数据解决模型选择中的基本问题。
Dec, 2017
本文提出了一种深度强化学习代理 —— 神经记忆控制器,该代理能够快速地接受和处理新经验并表现出针对这些经验的行为,并使用半表格化价值函数表示:包含缓慢变化状态表示和快速更新价值函数估计的过去经验缓冲区。研究表明,与其他最先进的通用型深度强化学习代理相比,该代理在各种环境中学习速度明显更快。
Mar, 2017
本研究提出了一种名为 2M 的方法,将历史记忆存储和强化学习相结合,以提高数据效率并在深度强化学习方面取得更好的表现,同时也提供了将任何历史记忆代理与其他非策略强化学习算法相结合的通用框架。
Apr, 2023
本研究利用 RNN 与反向传播算法,扩展了两个连续控制的无模型算法,能够成功地解决大量的物理控制问题,包括部分受到噪声干扰而需要信息短暂整合的问题,以及需要在多个时间步骤中保留信息的长期记忆问题,并且使用简化版本的 Morris 水迷宫任务进行了探索与记忆结合问题的研究。同时,通过直接从像素中学习,能够处理高维度的观测问题。
Dec, 2015
本文讨论了针对非情节式、奖励稀疏的强化学习任务中的环境特性,如何应用 “环境塑形” 和 “环境动态性” 等方法来提升学习效果,并通过实验验证了这些方法的有效性。
Jun, 2020
介绍了一种替代传统规划操作的新型小型备份方法,以提高模型基于强化学习的规划效率,并通过基于小型备份的优先扫描的方法实现了显着的性能改进。
Jan, 2013
通过引入扩展状态 - 奖励空间的高效 EC-based DRL 框架,我们的方法能够同时充分利用检索信息和通过时序差分 (TD) 损失更好地评估状态值,从而在具有挑战性的任务中表现出优越性。
Jan, 2024