基于价值分布的模型化强化学习

Aug, 2023

Value-Distributional Model-Based Reinforcement Learning

Carlos E. Luis, Alessandro G. Bottero, Julia Vinogradska, Felix Berkenkamp, Jan Peters

TL;DR基于模型的贝叶斯强化学习视角，本研究旨在学习马尔科夫决策过程中基于参数（认知）不确定性引发的值函数后验分布的不确定性，通过引入一个 Bellman 算子，我们提出了 Epistemic Quantile-Regression (EQR) 算法，该算法学习了一个值函数分布，可用于策略优化，在几个连续控制任务中进行评估，表现优于已建立的基于模型和无模型算法。

Abstract

Quantifying uncertainty about a policy's long-term performance is important to solve sequential decision-making tasks. We study the proble

uncertainty policy long-term performance reinforcement learning epistemic uncertainty

发现论文，激发创造

分位数回归的分布式强化学习

本文介绍了一种分布强化学习方法，不仅仅用于估计价值函数的平均值，而是显式地建模返回的分布，通过闭合实验和文献相关得到了一些理论和算法上的结果，最后在 Atari 2600 游戏中，该算法的表现显著优于许多 DQN 的改进方案，包括相关的分布式算法 C51。

Oct, 2017

基于模型的价值函数不确定性

在模型基强化学习中，我们考虑了如何量化累积奖励的不确定性，并提出了一种新的不确定 Bellman 方程来弥补现有工作的不足，该方法能够更准确地告诉我们此前探索的不足。实验表明，这种更精确的不确定性估计方法能够提高样本效率。

Feb, 2023

基于模型的风险意识策略优化的认知变异性

基于模型的强化学习中，我们考虑量化预期累积奖励的不确定性问题。我们提出了一个新的不确定性 Bellman 方程，其收敛到真实后验价值方差并在表格型探索问题中降低遗憾。我们鉴定了超越表格问题的应用挑战，并提出了相应的近似方法。基于这个近似，我们引入了一种通用的策略优化算法，Q - 不确定性软 Actor-Critic（QU-SAC），可在风险追求或风险规避的策略优化中进行最小程度改动。在线与离线强化学习的实验结果表明相较于其他不确定性估计方法，性能得到了提升。

Dec, 2023

苏格拉底的怀疑回声：在校准的证据强化学习中拥抱不确定性

我们提出了一种新颖的统计方法，用于在无模型分布式强化学习中纳入不确定性感知，它涉及基于分位回归的深度 Q 网络。该算法称为 CEQR-DQN（Calibrated Evidential Quantile Regression in Deep Q Networks），旨在解决在随机环境中分别估计偶然性和认识性不确定性所面临的关键挑战。它将深度证据学习与基于符合推理原则的分位校准相结合，提供明确的、无需样本的全局不确定性计算，而不是基于简单差异的局部估计，从而克服了传统方法在计算和统计效率以及处理超出分布范围观察的局限性。用于一套小型 Atari 游戏（即 MinAtar）的测试中，CEQR-DQN 在得分和学习速度方面超越了类似的现有框架。它对严格评估不确定性的能力改进了探索策略，并可作为其他需要不确定性感知的算法的蓝图。

Feb, 2024

基于模型的贝叶斯探索

本文论述的是如何在强化学习的算法中基于概率分布估算每个行动的信息价值，并选择能够平衡探索与利用的最佳行动。

Jan, 2013

基于分布式强化学习的高效探索技术

本论文提出的一种深度深度强化学习探索方法具有两个组成部分：有一个递减的时间表来抑制内在不确定性，一个探索奖励是从所学分布的上分位数中计算出来的，实验结果表明，我们的算法在 14 个 Atari 2600 游戏中有 12 个游戏取得了比 QR-DQN 更好的成绩，在难度较大的 3D 驾驶模拟器 (CARLA) 中，我们的算法安全奖励达到了近乎最优，比 QRDQN 快两倍。

May, 2019

基于正态分布引导的连续控制分布式强化学习

通过使用马尔可夫链中心极限定理，以近似正态分布的形式建模价值分布，分析计算分位数，提出一种基于价值分布的不确定性的策略更新方法，并在 PPO 和 TRPO 算法上进行连续控制任务测试，显示出性能改进。

Aug, 2022

具有遗憾界限的变分贝叶斯强化学习

本文中，我们利用一种新的 Bellman 算子和相应的固定点，称为‘知识价值’，将期望未来回报和认知不确定性压缩成一个单一的值，从而实现了一种风险追求效用函数，并通过 Boltzmann 策略生成贝叶斯风险边界。

Jul, 2018

强化学习的分布视角

本文阐述了价值分配的重要性，提出了一种基于价值分配的学习算法，并通过实证结果证明了该算法的有效性。

Jul, 2017

隐式分位数网络用于分布式强化学习

本文介绍了一种基于分布式强化学习的方法，通过使用分位回归来逼近状态 - 动作回报分布的全量位函数来得到一个灵活、高效且可应用于各种环境的动态规划方法，并通过在 57 个 Atari 2600 游戏中的表现来展示算法的性能，并使用其隐式定义的分布来研究风险敏感性政策在 Atari 游戏中的效果。

Jun, 2018