本文介绍了利用统计估计回报分布的方法来设计和分析分布式强化学习算法,提出了一种新算法 EDRL,同时介绍了 ER-DQN,将 EDRL 应用在 Atari-57 游戏集上进行了评估。
Feb, 2019
通过使用马尔可夫链中心极限定理,以近似正态分布的形式建模价值分布,分析计算分位数,提出一种基于价值分布的不确定性的策略更新方法,并在 PPO 和 TRPO 算法上进行连续控制任务测试,显示出性能改进。
Aug, 2022
本文介绍了一种分布强化学习方法,不仅仅用于估计价值函数的平均值,而是显式地建模返回的分布,通过闭合实验和文献相关得到了一些理论和算法上的结果,最后在 Atari 2600 游戏中,该算法的表现显著优于许多 DQN 的改进方案,包括相关的分布式算法 C51。
Oct, 2017
本论文提出的一种深度深度强化学习探索方法具有两个组成部分:有一个递减的时间表来抑制内在不确定性,一个探索奖励是从所学分布的上分位数中计算出来的,实验结果表明,我们的算法在 14 个 Atari 2600 游戏中有 12 个游戏取得了比 QR-DQN 更好的成绩,在难度较大的 3D 驾驶模拟器 (CARLA) 中,我们的算法安全奖励达到了近乎最优,比 QRDQN 快两倍。
May, 2019
基于模型的贝叶斯强化学习视角,本研究旨在学习马尔科夫决策过程中基于参数(认知)不确定性引发的值函数后验分布的不确定性,通过引入一个 Bellman 算子,我们提出了 Epistemic Quantile-Regression (EQR) 算法,该算法学习了一个值函数分布,可用于策略优化,在几个连续控制任务中进行评估,表现优于已建立的基于模型和无模型算法。
Aug, 2023
本文研究分布强化学习中的分位回归,证明 Cram´er 距离得到的投影与 1-Wasserstein 距离的投影相同,并提出了一种低复杂度算法来计算 Cram´er 距离,在非交叉限制下,squared Cram´er 和分位回归损失具有共线性,从而揭示了分布强化学习中相关要素之间的联系。
Oct, 2021
本文主要介绍了关于分布式强化学习 (DRL) 中,如何保证量化函数的有效性和高效利用分布信息的两个问题。在此基础上,提出了非降量化函数网络 (NDQFN) 保证得到的量化估计的单调性,并设计了一种名为分布预测误差 (DPE) 的通用探索框架,利用该框架整个量化函数的分布。通过对 Atari 2600 Games 等一些难度较大的游戏进行性能分析和对比,论证了所提方法的理论必要性和实际性能提高。
May, 2021
本论文提出了两种模型无关的算法,分别是分布鲁棒的 Q-learning 及其方差缩减的版本。这些算法可在处理分布移位时有效地学习强大的策略。在一系列数值实验中,这些算法的理论发现和效率得到了证实。
May, 2023
Distributed Distributional DrQ 是一个无模型离线 RL 算法,用于连续控制任务,基于代理的状态和观测,是一个带有数据增强和评论家值函数分布性观点的演员 - 评论家方法。通过使用分布分布式 DDPG 作为基础,该算法在各种连续控制任务中取得了出色的性能。
Apr, 2024
本文提出了一种新的分布式强化学习算法,该算法采用完全参数化分位函数,通过参数化分位函数的分位数量轴和值轴来更好地估计连续分布,并在 Atar 游戏环境中得到了前所未有的表现。
Nov, 2019