使用深度 Q-Learning 和变分自编码器进行可解释选项发现

Oct, 2022

使用深度 Q-Learning 和变分自编码器进行可解释选项发现

Interpretable Option Discovery using Deep Q-Learning and Variational Autoencoders

Per-Arne Andersen, Ole-Christoffer Granmo, Morten Goodwin

TL;DRDeep Reinforcement Learning 领域中基于选择框架的 DVQN 算法提出了一种基于高斯分布的潜在空间来定义选择并通过传统的 Q-Learning 更新来找到良好策略的方法，通过实验证明其可替代 Rainbow 算法在自动识别选择的开始和结束条件方面表现可能更好。

Abstract

deep reinforcement learning (RL) is unquestionably a robust framework to train autonomous agents in a wide variety of disciplines. However, traditional deep and shallow model-free RL algorithms suffer from low sample efficiency and inadequate generalization for sparse state spaces. The

deep reinforcement learning options framework dvqn latent-space option-based reinforcement learning

发现论文，激发创造

POMDP 的深层变分强化学习

本文提出了一种深度变分强化学习方法，该方法引入了归纳偏置，允许代理学习环境的生成模型并在该模型中执行推断以有效地聚合可用信息。通过在 Mountain Hike 和 flickering Atari 的实验中表明，我们的方法优于先前依赖于循环神经网络对过去进行编码的方法。

Jun, 2018

变分选项发现算法

本文探讨了基于变分推断的选项发现方法，提出了一种新的基于变分自编码器的 VALOR 方法，并使用课程学习的技巧增加了 agent 能够学习的多种行为模式，通过研究方法的限制以及从学习选项到下游任务的应用等主题来探讨相关领域。

Jul, 2018

深度强化学习的分类选项

本文将一个分层强化学习方法 —— 选项框架与深度 Q 网络结合起来，通过在策略网络上使用不同的 “选项头” 以及用于选择不同选项的监督网络，探究子任务在正 / 负转移方面对架构约束的影响，并通过实证方法证明，增强型深度 Q 网络同时学习具有负转移的子任务的样本复杂性较低，而在学习具有正转移的子任务时不会降低性能。

Apr, 2016

变分量子深度 Q 网络的不稳定性分析

本文研究了一类混合量子 - 经典强化学习算法 VQ-DQN，发现其容易受到不稳定性的影响。实验结果表明，尽管有观点认为量子计算可以比经典方法更具优势，但无法确定这种优势。</br>

Feb, 2022

多层深度选项的发现

本文提出了一种名为 DDO 的政策梯度算法，用于从一组演示轨迹中发现参数化选项，可递归地用于发现层次结构的附加级别，解决了手动设计选项在高维抽象状态空间中难以实现的问题，提高了深度 Q 网络代理学习的效率。DDO 可加速学习 4/5 个 Atari RAM 环境，并在机器人辅助手术视频和动态学方面具有发现结构的能力。

Mar, 2017

深度品质 - 价值学习（DQV 学习）

本文介绍了一种新颖的深度加强学习算法 ——Deep Quality-Value（DQV） Learning。通过测试两个经典强化学习问题和四个 Atari 游戏，结果表明，DQV 比 Deep Q-Learning 和 Double Deep Q-Learning 学习得更快，更好，表明该算法可能是一种比当前 DRL 中已有的同步时差算法表现更好的算法。

Sep, 2018

变分深度 Q 网络

本文提出一种框架，通过利用强大的变分推断子程序来直接处理深度 Q 网络（DQN）中值函数参数的概率分布，建立了我们提出的代理目标与变分推断损失之间的等价关系，并在大规模链式马尔科夫决策过程（MDP）上实现了高效的探索和表现。

Nov, 2017

Gym 中的量子代理：一种深度 Q-learning 的变分量子算法

本文介绍了一种用于解决离散和连续状态空间的 RL 任务的训练方法，该方法基于深度 Q-learning 算法。研究通过消融研究探究了量子 Q-learning 算法的体系结构选择对于成功解决某些环境的重要性，并提出了用于选择适当的观测量的方法，以比较量子和经典 DQN 算法的性能.

Mar, 2021

通过贝叶斯深度 Q 网络实现高效探索

这篇论文研究了高维情境下的强化学习，提出了两种基于乐观法和后验采样的算法来解决此问题，并扩展了该方法应用在深度强化学习上，所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式，使其能够充分平衡探索与执行间的权衡，更加有效地应用在 Atari 游戏中。

Feb, 2018

使用矢量量化编码的深度强化学习

该研究提出了一种名为向量量化的强化学习插件框架，基于向量量化编码的辅助分类任务将状态特征聚类，以提高深度强化学习方法的可解释性，并引入了两种正则化方法以帮助增加聚类之间的区分度和避免 VQ 训练所涉及的风险，该方法在模拟中证明了其提高了可解释性，并研究了其对深度 RL 鲁棒性和泛化能力的影响。

Nov, 2022