假设密度过滤 Q 学习

IJCAIDec, 2017

Assumed Density Filtering Q-learning

Heejin Jeong, Clark Zhang, George J. Pappas, Daniel D. Lee

TL;DR本文提出了一种新的基于 Bayesian 思想的离线 TD 学习方法 ADFQ，采用在线贝叶斯推断方法 Assumed Density Filtering 更新对状态 - 动作值（Q 值）的信念，并通过神经网络进行扩展，实验结果表明 ADFQ 在 Atari 2600 游戏等各种情况下都能优于其他基于 Bayesian 的 RL 算法，针对高度随机的领域或具有大动作空间的领域具有明显的改进。

Abstract

While off-policy temporal difference (TD) methods have widely been used in reinforcement learning due to their efficiency and simple implementation, their bayesian counterparts have not been utilized as frequentl

bayesian reinforcement learning off-policy td methods assumed density filtering neural network

发现论文，激发创造

贝叶斯条件密度滤波

本论文提出了一种新的条件密度滤波算法（C-DF），用于有效的在线贝叶斯推断，通过在新数据到达时从条件后验分布的近似中采样，利用统计量消除了同时存储或处理整个数据集的需求，从而提高了内存需求和运行时长，改善了混合度，并展示了其在高维压缩回归中的应用。同时，本文证明了 C-DF 样本随着采样的进行和数据的增多而渐近地收敛于目标后验分布。

Jan, 2014

有限状态马尔可夫决策过程中的离线贝叶斯不确定性量化与后验值优化

在这篇文章中，我们解决了以未知动态的有限状态马尔科夫决策过程（MDPs）的离线使用为情景的贝叶斯不确定性的量化并将其合并的挑战。我们的方法提供了一种原则性方法来区分认识不确定性和机缘不确定性，以及一种无需依赖于 MDP 的后验分布的强假设来找到优化贝叶斯后验期望值的策略的新技术。

Jun, 2024

从无向状态经验中学习价值函数

本文介绍了一种从无指向性状态体验（即（s，s'，r）三元组，没有动作标签的状态转换）中学习价值函数的方法，该方法基于 Q-learning 将离散潜在变量预测模型中产生的离散潜在动作与值函数联系起来，并实验证明其效益。

Apr, 2022

深度贝叶斯滤波在贝叶斯可信数据同化中的应用

提出了用于非线性状态空间模型的深度贝叶斯滤波（DBF）方法，通过构建新的潜在变量并利用高斯逆观测算子进行数据同化，使得 DBF 的后验分布始终保持高斯性质，克服了采样误差积累的问题，并在各种任务和条件下优于基于模型和潜在同化方法。

May, 2024

深度强化学习的快速价值追踪

我们的研究利用卡尔曼滤波范式引入了一种称为 Langevinized Kalman Temporal-Difference (LKTD) 的新颖且可扩展的采样算法，用于深度强化学习。通过 LKTD 算法，我们有效地从深度神经网络参数的后验分布中抽样，而且我们证明了在温和条件下，LKTD 算法生成的后验样本收敛到一个稳定分布。这种收敛不仅使我们能够量化价值函数和模型参数相关的不确定性，而且在训练阶段中允许我们监控这些不确定性。LKTD 算法为更加强健和适应性的强化学习方法打开了道路。

Mar, 2024

使用深度确定性动态梯度估计 Q (s,s')

本文提出了一种新型的价值函数 Q (s, s')，用于表达从状态 s 转移到邻近状态 s' 并在此之后最优行动的效用，通过构建能够最大化 Q 值的前向动力学模型，得出最优策略并实现离线学习。该方法在价值函数转移、冗余行动空间内学习和在末优策略或完全随机策略下离线学习等方面具有优势。

Feb, 2020

高效神经网络对话策略优化中的不确定性估计

本文研究了在对话管理环境下，采用深度强化学习框架（DQN）进行不确定性估计的方法，并与常见的基于高斯过程的方法进行了对比和基准测试，并对优化策略进行了探讨。

Nov, 2017

深度反向 Q 学习与约束

提出了一种新的算法类，仅需要解决一次 MDP 就能恢复专家策略，在 Continuous state-spaces 中使用函数逼近估算相应的行动 - 价值函数，可以有效替代 (深度) Max-Entropy 算法用于自主驾驶的学习。

Aug, 2020

基于隐式 Q 学习的离线强化学习

提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法，通过将状态价值函数视为随机变量，利用泛化能力估计在给定状态下最佳可用行为的价值，实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。

Oct, 2021

IDQL: 基于扩散策略的隐式 Q 学习作为一个演员 - 评论家方法

使用 Diffusion parameterized behavior policy 和 Implicit Q-learning (IQL) 模型，提出了一个新的 actor-critic 模型，称为 Implicit Diffusion Q-learning (IDQL)，能够处理 offline RL 问题中的 out-of-distribution actions。

Apr, 2023