使用情节记忆从深度强化学习生成解释

May, 2022

使用情节记忆从深度强化学习生成解释

Generating Explanations from Deep Reinforcement Learning Using Episodic Memory

Sam Blakeman, Denis Mareschal

TL;DR通过使用含有情节记忆系统的深度强化学习代理，识别和重述关键决策，生成人类可读的简短解释，可用于加快初学的无算法依赖深度强化学习代理的学习。

Abstract

deep reinforcement learning (RL) involves the use of deep neural networks (DNNs) to make sequential decisions in order to maximize reward. For many tasks the resulting sequence of actions produced by a Deep RL po

deep reinforcement learning deep neural networks human explanations key decisions episodic memory system

发现论文，激发创造

情节记忆深度 Q 网络

本文提出了一种基于生物学启发的强化学习算法 Episodic Memory Deep Q-Networks（EMDQN），该算法利用情节内存来监督代理在训练过程中，实验表明我们提出的方法可以提高样本效率，更容易找到好策略，在 Atari 游戏上只需要 1/5 的交互就能达到许多具有最先进性能的情况，明显优于常规 DQN 和其他情节记忆基 RL 算法。

May, 2018

在分层强化学习场景中解释代理的决策制定

本文提出利用基于记忆的可解释强化学习方法解决分层任务的复杂性，并计算成功概率用于解释代理的行为。结果表明，在高层任务中使用记忆算法可以计算出代理的成功概率并用作指导其行为的基础。

Dec, 2022

无模型的情节控制

本文探讨海马海马记忆控制应用于深度加强学习，证明该应用比现有的加强学习算法更快地高效解决了一些复杂的连续决策任务。

Jun, 2016

神经元事件控制

本文提出了一种深度强化学习代理 —— 神经记忆控制器，该代理能够快速地接受和处理新经验并表现出针对这些经验的行为，并使用半表格化价值函数表示：包含缓慢变化状态表示和快速更新价值函数估计的过去经验缓冲区。研究表明，与其他最先进的通用型深度强化学习代理相比，该代理在各种环境中学习速度明显更快。

Mar, 2017

深度 Q 网络的更好可解释性

本文提出了一种可解释的神经网络架构，用于 Q-learning，在全局层面上使用键值记忆、注意力和可重构嵌入，提供模型行为的全局解释。使用有向探索策略，该模型可以达到与最先进的深度 Q-learning 模型相当的训练奖励，但结果表明该神经网络提取的特征非常浅，并且使用样本外的示例进行后续测试表明代理可以轻松地过拟合训练期间看到的轨迹。

Sep, 2018

可解释性强化学习综述：概念、算法、挑战

本篇综述论文将积极介绍深度强化学习与可解释机器学习的交叉，比较了先前的方法，提出了一种补充，阐明了深度学习对智能机器人控制任务的适用性，强调机器学习与人类知识相互融合提升学习效率和性能的意义，并评估了未来 XRL 研究面临的挑战和机遇。

Nov, 2022

扩展状态奖励空间的情节强化学习

通过引入扩展状态 - 奖励空间的高效 EC-based DRL 框架，我们的方法能够同时充分利用检索信息和通过时序差分 (TD) 损失更好地评估状态值，从而在具有挑战性的任务中表现出优越性。

Jan, 2024

基于任务条件超网络的多任务时序记忆深度强化学习

为了解决深度强化学习算法中的采样效率问题，本文提出了一种新的基于任务调节超网络的检索网络算法，并通过在 MiniGrid 环境下的实验结果验证了其胜于传统算法的性能表现。

Jun, 2023

短时、情节性和语义记忆系统的机器

使用认知科学理论作为参考，研究者构建了一种基于知识图谱的具有短期、情节和语义记忆系统的智能体，并通过深度 Q 学习方法来使这个智能体在自己设计的强化学习环境中学会如何驾驭记忆来最大效益地回答问题。结果表明，与没有类似记忆结构的智能体相比，拥有人类式记忆系统的智能体在该环境下的表现更为出色。

Dec, 2022

嵌入式自我预测对强化学习的对比解释

本文提出了一种支持解释强化学习代理为何倾向于执行一种行动而非另一种行动的深度强化学习架构，并应用于三个领域的案例研究中，证明了嵌入式自我预测模型可以有效学习并支持有见解的解释。

Oct, 2020