变分深度 Q 网络

NIPSNov, 2017

Variational Deep Q Network

Yunhao Tang, Alp Kucukelbir

TL;DR本文提出一种框架，通过利用强大的变分推断子程序来直接处理深度 Q 网络（DQN）中值函数参数的概率分布，建立了我们提出的代理目标与变分推断损失之间的等价关系，并在大规模链式马尔科夫决策过程（MDP）上实现了高效的探索和表现。

Abstract

We propose a framework that directly tackles the probability distribution of the value function parameters in deep q network (DQN), with powerful variational inference subroutines to approximate the →

deep q network variational inference posterior chain markov decision process exploration

发现论文，激发创造

使用深度 Q-Learning 和变分自编码器进行可解释选项发现

Deep Reinforcement Learning 领域中基于选择框架的 DVQN 算法提出了一种基于高斯分布的潜在空间来定义选择并通过传统的 Q-Learning 更新来找到良好策略的方法，通过实验证明其可替代 Rainbow 算法在自动识别选择的开始和结束条件方面表现可能更好。

Oct, 2022

通过贝叶斯深度 Q 网络实现高效探索

这篇论文研究了高维情境下的强化学习，提出了两种基于乐观法和后验采样的算法来解决此问题，并扩展了该方法应用在深度强化学习上，所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式，使其能够充分平衡探索与执行间的权衡，更加有效地应用在 Atari 游戏中。

Feb, 2018

变分量子深度 Q 网络的不稳定性分析

本文研究了一类混合量子 - 经典强化学习算法 VQ-DQN，发现其容易受到不稳定性的影响。实验结果表明，尽管有观点认为量子计算可以比经典方法更具优势，但无法确定这种优势。</br>

Feb, 2022

POMDP 的深层变分强化学习

本文提出了一种深度变分强化学习方法，该方法引入了归纳偏置，允许代理学习环境的生成模型并在该模型中执行推断以有效地聚合可用信息。通过在 Mountain Hike 和 flickering Atari 的实验中表明，我们的方法优于先前依赖于循环神经网络对过去进行编码的方法。

Jun, 2018

强化学习中的概率推理正确实施

强化学习中，通过马尔科夫决策过程的图形模型，以概率推理的方式对各状态 - 行为对的访问概率进行研究。本研究采用贝叶斯方法，严格处理了状态 - 行为优化的后验概率，并阐明了其在马尔科夫决策过程中的流动方式。通过引入变分贝叶斯近似方法，得到了一个可行的凸优化问题，建立的策略也能有效地进行探索。该方法称为 VAPOR，与汤普森抽样、K 学习和最大熵探索有着紧密的联系。通过一些实验，展示了深度强化学习版本 VAPOR 在性能上的优势。

Nov, 2023

无向图模型中的神经变分推断和学习

本文提出了针对无向模型的黑盒学习和推理算法，通过使用变分逼近模型 log-likelihood 的上界优化算法，其中重要的是由灵活神经网络表达的 log-partition 参数化函数上界。我们的算法可加速采样，训练广泛类别的混合有向 / 无向模型，并在多个流行生成建模数据集上验证了其有效性。

Nov, 2017

使用深度 Q-Learning 控制优化超参数

本文介绍了一种新颖的强化学习状态、动作和奖励函数的定义，它允许深度 Q 网络（DQN）学习控制优化超参数。我们使用经验重放的 Q 学习，训练两个 DQN 接受目标函数状态表示作为输入，并输出与学习率调整或保持不变的动作相关的预期折扣回报，即 q 值。训练的 DQN 结合基于梯度的更新例程构成了 Q - 梯度下降算法的基础。与传统的优化方法不同，Q - 梯度下降可以结合任何目标统计量，通过变化动作，我们可以深入了解成功的神经网络优化的学习率调整策略。

Feb, 2016

深度品质 - 价值学习（DQV 学习）

本文介绍了一种新颖的深度加强学习算法 ——Deep Quality-Value（DQV） Learning。通过测试两个经典强化学习问题和四个 Atari 游戏，结果表明，DQV 比 Deep Q-Learning 和 Double Deep Q-Learning 学习得更快，更好，表明该算法可能是一种比当前 DRL 中已有的同步时差算法表现更好的算法。

Sep, 2018

利用经典深度神经网络克服荒原高原问题

本文提出了一种使用经典神经网络来生成量子电路参数的方法，以缓解 Barren Plateaus 现象，该方法不仅能够在初始阶段减轻 Barren Plateaus 的影响，还能够在 VQA 训练期间减轻该影响，并展示了该方法在不同 CNN 架构下的表现。

May, 2022

基于 QP 和 MPC 的强化学习之间的桥梁

本文采用基于 QP（Quadratic Programs）的方法，取代采用 DNN 的方法来学习 RL 中的价值函数和策略，以此提高其可解释性和简化结构，并且给出了调整可解释性和简化结构的方法。

May, 2022