连续性情节控制
本研究使用 Actor-Critic 架构,通过修改 critic 的目标函数,将记忆机制引入连续控制问题中,使用基于经验的记忆缓冲区优先级排列方式,验证了在广泛的行动空间下,使用记忆机制能够提高连续控制中代理的性能,并且相较于最先进的自由模型离线算法,实现了更高的样本效率。
Jun, 2021
本文提出了一种深度强化学习代理 —— 神经记忆控制器,该代理能够快速地接受和处理新经验并表现出针对这些经验的行为,并使用半表格化价值函数表示:包含缓慢变化状态表示和快速更新价值函数估计的过去经验缓冲区。研究表明,与其他最先进的通用型深度强化学习代理相比,该代理在各种环境中学习速度明显更快。
Mar, 2017
本研究提出了一种名为 2M 的方法,将历史记忆存储和强化学习相结合,以提高数据效率并在深度强化学习方面取得更好的表现,同时也提供了将任何历史记忆代理与其他非策略强化学习算法相结合的通用框架。
Apr, 2023
该研究实证分析了在连续学习过程中,引入极小的叙事性记忆在任务之间转移知识的有效性,并发现相较于特定的连续学习方法,该方法能利用极小的记忆显著提升泛化能力,对小样本问题有一定的启示。
Feb, 2019
通过引入扩展状态 - 奖励空间的高效 EC-based DRL 框架,我们的方法能够同时充分利用检索信息和通过时序差分 (TD) 损失更好地评估状态值,从而在具有挑战性的任务中表现出优越性。
Jan, 2024
本研究发现,在确定性树形 Markov 决策过程中,情景控制与优先扫描具有相同的样本效率、内存和计算需求。在一般的确定性和随机环境中,即使记忆和计算需求被限制为与情景控制相等,优先扫描的表现也更好。这些结果表明了优先扫描在部分可观察环境下的泛化能力,以及在功能逼近和可实现性方面的使用率和潜力。
Nov, 2017
本文提出了一个基于状态抽象的故事式控制算法 NECSA,它采用了更全面的故事记忆、新颖的状态评估以及多步状态分析,对 OpenAI gym 域中的 MuJoCo 和 Atari 任务进行了评估,实验结果表明 NECSA 比最先进的故事式控制方法具有更高的样本效率。
Jan, 2023