高效探索的非降分位函数网络在分布式强化学习中的应用

May, 2021

高效探索的非降分位函数网络在分布式强化学习中的应用

Non-decreasing Quantile Function Network with Efficient Exploration for Distributional Reinforcement Learning

Fan Zhou, Zhoufan Zhu, Qi Kuang, Liwen Zhang

TL;DR本文主要介绍了关于分布式强化学习 (DRL) 中，如何保证量化函数的有效性和高效利用分布信息的两个问题。在此基础上，提出了非降量化函数网络 (NDQFN) 保证得到的量化估计的单调性，并设计了一种名为分布预测误差 (DPE) 的通用探索框架，利用该框架整个量化函数的分布。通过对 Atari 2600 Games 等一些难度较大的游戏进行性能分析和对比，论证了所提方法的理论必要性和实际性能提高。

Abstract

Although distributional reinforcement learning (DRL) has been widely examined in the past few years, there are two open questions people are still trying to address. One is how to ensure the validity of the learned quan

distributional reinforcement learning quantile function non-decreasing quantile function network distributional prediction error atari 2600 games

发现论文，激发创造

分布式强化学习全参数分位函数

本文提出了一种新的分布式强化学习算法，该算法采用完全参数化分位函数，通过参数化分位函数的分位数量轴和值轴来更好地估计连续分布，并在 Atar 游戏环境中得到了前所未有的表现。

Nov, 2019

隐式分位数网络用于分布式强化学习

本文介绍了一种基于分布式强化学习的方法，通过使用分位回归来逼近状态 - 动作回报分布的全量位函数来得到一个灵活、高效且可应用于各种环境的动态规划方法，并通过在 57 个 Atari 2600 游戏中的表现来展示算法的性能，并使用其隐式定义的分布来研究风险敏感性政策在 Atari 游戏中的效果。

Jun, 2018

分布式强化学习的方差控制

基于分布式强化学习的新 Q 函数估计器和 QEMRL 算法通过误差分析和理论证明能够减小偏差和方差，并在 Atari 和 Mujoco 基准任务中显著提高了样本效率和收敛性能。

Jul, 2023

基于分布式强化学习的高效探索技术

本论文提出的一种深度深度强化学习探索方法具有两个组成部分：有一个递减的时间表来抑制内在不确定性，一个探索奖励是从所学分布的上分位数中计算出来的，实验结果表明，我们的算法在 14 个 Atari 2600 游戏中有 12 个游戏取得了比 QR-DQN 更好的成绩，在难度较大的 3D 驾驶模拟器 (CARLA) 中，我们的算法安全奖励达到了近乎最优，比 QRDQN 快两倍。

May, 2019

基于价值分布的模型化强化学习

基于模型的贝叶斯强化学习视角，本研究旨在学习马尔科夫决策过程中基于参数（认知）不确定性引发的值函数后验分布的不确定性，通过引入一个 Bellman 算子，我们提出了 Epistemic Quantile-Regression (EQR) 算法，该算法学习了一个值函数分布，可用于策略优化，在几个连续控制任务中进行评估，表现优于已建立的基于模型和无模型算法。

Aug, 2023

分位数回归的分布式强化学习

本文介绍了一种分布强化学习方法，不仅仅用于估计价值函数的平均值，而是显式地建模返回的分布，通过闭合实验和文献相关得到了一些理论和算法上的结果，最后在 Atari 2600 游戏中，该算法的表现显著优于许多 DQN 的改进方案，包括相关的分布式算法 C51。

Oct, 2017

基于正态分布引导的连续控制分布式强化学习

通过使用马尔可夫链中心极限定理，以近似正态分布的形式建模价值分布，分析计算分位数，提出一种基于价值分布的不确定性的策略更新方法，并在 PPO 和 TRPO 算法上进行连续控制任务测试，显示出性能改进。

Aug, 2022

基于 Quantile 回归的分布式强化学习的 Cramér 距离视角

本文研究分布强化学习中的分位回归，证明 Cram´er 距离得到的投影与 1-Wasserstein 距离的投影相同，并提出了一种低复杂度算法来计算 Cram´er 距离，在非交叉限制下，squared Cram´er 和分位回归损失具有共线性，从而揭示了分布强化学习中相关要素之间的联系。

Oct, 2021

离散规范化优势函数的深度强化学习用于网络切片资源管理

本文采用离散归一化优势函数将深度强化学习算法应用于网络切片中资源管理的问题，将 Q - 值函数分离，使用确定性策略梯度下降算法避免不必要的计算，并利用 k 最近邻算法在离散空间中快速找到有效行动，提高网络切片的收敛速度。

Jun, 2019

深层 Huber 分位回归网络

DHQRN 是一种采用 Huber 分位数回归网络的 Deep Learning 算法，能够更全面地预测预测概率分布的数量级和不确定性，论文通过澳大利亚房价数据进行了验证。

Jun, 2023