本文提出了一种基于生物学启发的强化学习算法 Episodic Memory Deep Q-Networks(EMDQN),该算法利用情节内存来监督代理在训练过程中,实验表明我们提出的方法可以提高样本效率,更容易找到好策略,在 Atari 游戏上只需要 1/5 的交互就能达到许多具有最先进性能的情况,明显优于常规 DQN 和其他情节记忆基 RL 算法。
May, 2018
本文提出利用基于记忆的可解释强化学习方法解决分层任务的复杂性,并计算成功概率用于解释代理的行为。结果表明,在高层任务中使用记忆算法可以计算出代理的成功概率并用作指导其行为的基础。
Dec, 2022
本文探讨海马海马记忆控制应用于深度加强学习,证明该应用比现有的加强学习算法更快地高效解决了一些复杂的连续决策任务。
Jun, 2016
本文提出了一种深度强化学习代理 —— 神经记忆控制器,该代理能够快速地接受和处理新经验并表现出针对这些经验的行为,并使用半表格化价值函数表示:包含缓慢变化状态表示和快速更新价值函数估计的过去经验缓冲区。研究表明,与其他最先进的通用型深度强化学习代理相比,该代理在各种环境中学习速度明显更快。
Mar, 2017
本文提出了一种可解释的神经网络架构,用于 Q-learning,在全局层面上使用键值记忆、注意力和可重构嵌入,提供模型行为的全局解释。使用有向探索策略,该模型可以达到与最先进的深度 Q-learning 模型相当的训练奖励,但结果表明该神经网络提取的特征非常浅,并且使用样本外的示例进行后续测试表明代理可以轻松地过拟合训练期间看到的轨迹。
Sep, 2018
本篇综述论文将积极介绍深度强化学习与可解释机器学习的交叉,比较了先前的方法,提出了一种补充,阐明了深度学习对智能机器人控制任务的适用性,强调机器学习与人类知识相互融合提升学习效率和性能的意义,并评估了未来 XRL 研究面临的挑战和机遇。
Nov, 2022
通过引入扩展状态 - 奖励空间的高效 EC-based DRL 框架,我们的方法能够同时充分利用检索信息和通过时序差分 (TD) 损失更好地评估状态值,从而在具有挑战性的任务中表现出优越性。
Jan, 2024
为了解决深度强化学习算法中的采样效率问题,本文提出了一种新的基于任务调节超网络的检索网络算法,并通过在 MiniGrid 环境下的实验结果验证了其胜于传统算法的性能表现。
Jun, 2023
使用认知科学理论作为参考,研究者构建了一种基于知识图谱的具有短期、情节和语义记忆系统的智能体,并通过深度 Q 学习方法来使这个智能体在自己设计的强化学习环境中学会如何驾驭记忆来最大效益地回答问题。结果表明,与没有类似记忆结构的智能体相比,拥有人类式记忆系统的智能体在该环境下的表现更为出色。
本文提出了一种支持解释强化学习代理为何倾向于执行一种行动而非另一种行动的深度强化学习架构,并应用于三个领域的案例研究中,证明了嵌入式自我预测模型可以有效学习并支持有见解的解释。
Oct, 2020