具有状态抽象的神经元情节控制
本文提出了一种深度强化学习代理 —— 神经记忆控制器,该代理能够快速地接受和处理新经验并表现出针对这些经验的行为,并使用半表格化价值函数表示:包含缓慢变化状态表示和快速更新价值函数估计的过去经验缓冲区。研究表明,与其他最先进的通用型深度强化学习代理相比,该代理在各种环境中学习速度明显更快。
Mar, 2017
通过引入扩展状态 - 奖励空间的高效 EC-based DRL 框架,我们的方法能够同时充分利用检索信息和通过时序差分 (TD) 损失更好地评估状态值,从而在具有挑战性的任务中表现出优越性。
Jan, 2024
NEC2DQN 旨在提高深度强化学习中 DQN 等低效算法的学习速度,通过在学习开始时使用高效率算法 NEC,能够比 Double DQN 或 N-step DQN 更快地在 Pong 实验中进行学习。
Jan, 2018
本文提出了一种基于生物学启发的强化学习算法 Episodic Memory Deep Q-Networks(EMDQN),该算法利用情节内存来监督代理在训练过程中,实验表明我们提出的方法可以提高样本效率,更容易找到好策略,在 Atari 游戏上只需要 1/5 的交互就能达到许多具有最先进性能的情况,明显优于常规 DQN 和其他情节记忆基 RL 算法。
May, 2018
本文提出了一种新型非参数迭代记忆算法 CEC 来解决具有连续动作空间的顺序决策问题,同时在多个稀疏奖励连续控制环境中表现出比最先进的无模型 RL 和记忆扩展 RL 算法更快的学习速度和更好的长期表现。
Nov, 2022
本研究以即时战略游戏 StarCraft 为基础,通过使用深度神经网络控制器及启发式强化学习算法来解决些许的问题,同时展现此算法适用于将士兵实时控制过程转化为强化学习问题,获得了良好效果。
Sep, 2016
本研究使用 Actor-Critic 架构,通过修改 critic 的目标函数,将记忆机制引入连续控制问题中,使用基于经验的记忆缓冲区优先级排列方式,验证了在广泛的行动空间下,使用记忆机制能够提高连续控制中代理的性能,并且相较于最先进的自由模型离线算法,实现了更高的样本效率。
Jun, 2021
提出一种名为 MEDAL 的新方法,它将反向策略训练成与提供的演示中的状态分布匹配,以使代理保持接近与任务相关的状态,从而为前向策略提供易于和困难的起始状态,而且在连续控制任务上匹配或优于先前的方法,同时做出比以前更少的假设。
May, 2022
本文介绍了一种新的从上至下的方法,用于在执行强化学习的同时构建状态抽象,动态计算一个基于 Q 值分散的抽象,结果表明,这种方法自动学习细调问题的抽象,具有较强的样本效率,并使强化学习代理明显优于现有方法。
Oct, 2022