分位数回归的分布式强化学习

Oct, 2017

Distributional Reinforcement Learning with Quantile Regression

Will Dabney, Mark Rowland, Marc G. Bellemare, Rémi Munos

TL;DR本文介绍了一种分布强化学习方法，不仅仅用于估计价值函数的平均值，而是显式地建模返回的分布，通过闭合实验和文献相关得到了一些理论和算法上的结果，最后在 Atari 2600 游戏中，该算法的表现显著优于许多 DQN 的改进方案，包括相关的分布式算法 C51。

Abstract

In reinforcement learning an agent interacts with the environment by taking actions and observing the next state and reward. When sampled probabilistically, these state transitions, rewards, and actions can all induce randomness in the observed long-term return. Traditionally, reinforc

reinforcement learning distributional approach value distribution atari 2600 games algorithm

发现论文，激发创造

隐式分位数网络用于分布式强化学习

本文介绍了一种基于分布式强化学习的方法，通过使用分位回归来逼近状态 - 动作回报分布的全量位函数来得到一个灵活、高效且可应用于各种环境的动态规划方法，并通过在 57 个 Atari 2600 游戏中的表现来展示算法的性能，并使用其隐式定义的分布来研究风险敏感性政策在 Atari 游戏中的效果。

Jun, 2018

基于价值分布的模型化强化学习

基于模型的贝叶斯强化学习视角，本研究旨在学习马尔科夫决策过程中基于参数（认知）不确定性引发的值函数后验分布的不确定性，通过引入一个 Bellman 算子，我们提出了 Epistemic Quantile-Regression (EQR) 算法，该算法学习了一个值函数分布，可用于策略优化，在几个连续控制任务中进行评估，表现优于已建立的基于模型和无模型算法。

Aug, 2023

强化学习的分布视角

本文阐述了价值分配的重要性，提出了一种基于价值分配的学习算法，并通过实证结果证明了该算法的有效性。

Jul, 2017

基于正态分布引导的连续控制分布式强化学习

通过使用马尔可夫链中心极限定理，以近似正态分布的形式建模价值分布，分析计算分位数，提出一种基于价值分布的不确定性的策略更新方法，并在 PPO 和 TRPO 算法上进行连续控制任务测试，显示出性能改进。

Aug, 2022

分布式强化学习全参数分位函数

本文提出了一种新的分布式强化学习算法，该算法采用完全参数化分位函数，通过参数化分位函数的分位数量轴和值轴来更好地估计连续分布，并在 Atar 游戏环境中得到了前所未有的表现。

Nov, 2019

基于分布式强化学习的高效探索技术

本论文提出的一种深度深度强化学习探索方法具有两个组成部分：有一个递减的时间表来抑制内在不确定性，一个探索奖励是从所学分布的上分位数中计算出来的，实验结果表明，我们的算法在 14 个 Atari 2600 游戏中有 12 个游戏取得了比 QR-DQN 更好的成绩，在难度较大的 3D 驾驶模拟器 (CARLA) 中，我们的算法安全奖励达到了近乎最优，比 QRDQN 快两倍。

May, 2019

分布式强化学习中的统计和样本

本文介绍了利用统计估计回报分布的方法来设计和分析分布式强化学习算法，提出了一种新算法 EDRL，同时介绍了 ER-DQN，将 EDRL 应用在 Atari-57 游戏集上进行了评估。

Feb, 2019

使用双 Expectile-Quantile 回归的分布强化学习

本篇论文提出了一种将 expectiles 和 quantiles 相结合的方法，用于表示回报的分布，该方法充分利用了它们在估计分布方面的独特性质，相较于先前的基于 quantile 或 expectile 的算法在 MuJoCo continuous control benchmark 上表现更好。

May, 2023

连续控制增强学习：分布分布式 DrQ 算法

Distributed Distributional DrQ 是一个无模型离线 RL 算法，用于连续控制任务，基于代理的状态和观测，是一个带有数据增强和评论家值函数分布性观点的演员 - 评论家方法。通过使用分布分布式 DDPG 作为基础，该算法在各种连续控制任务中取得了出色的性能。

Apr, 2024

基于 Quantile 回归的分布式强化学习的 Cramér 距离视角

本文研究分布强化学习中的分位回归，证明 Cram´er 距离得到的投影与 1-Wasserstein 距离的投影相同，并提出了一种低复杂度算法来计算 Cram´er 距离，在非交叉限制下，squared Cram´er 和分位回归损失具有共线性，从而揭示了分布强化学习中相关要素之间的联系。

Oct, 2021