强化学习的分布视角

ICMLJul, 2017

A Distributional Perspective on Reinforcement Learning

Marc G. Bellemare, Will Dabney, Rémi Munos

TL;DR本文阐述了价值分配的重要性，提出了一种基于价值分配的学习算法，并通过实证结果证明了该算法的有效性。

Abstract

In this paper we argue for the fundamental importance of the value distribution: the distribution of the random return received by a reinforcement learning agent. This is in contrast to the common approach to reinforcement learning which models the expectation of this return, or value. Although there is an established body of literature studying the

reinforcement learning value distribution policy evaluation approximate value learning algorithm

发现论文，激发创造

分位数回归的分布式强化学习

本文介绍了一种分布强化学习方法，不仅仅用于估计价值函数的平均值，而是显式地建模返回的分布，通过闭合实验和文献相关得到了一些理论和算法上的结果，最后在 Atari 2600 游戏中，该算法的表现显著优于许多 DQN 的改进方案，包括相关的分布式算法 C51。

Oct, 2017

预期和分布式强化学习的比较分析

通过对 tabular、线性和非线性逼近设置的分析，研究了分布式 RL 相对于标准 RL 的改进原因。在控制设置中，以经验分析比较了分布式 RL 和标准 RL 的方法，找出了分布式 RL 方法的改进来源。

Jan, 2019

分布式强化学习中的风险视角探析

通过风险规划方法提高 DMIX 算法的性能，在多代理环境下进行了全面的实验，此方法可用于探索 Distributional Reinforcement Learning 中风险水平和乐观行为。

Jun, 2022

分类分布式强化学习的分析

本文为分布式 RL 算法提出了一个分析 CDRL 算法的框架，证明了投影分布 Bellman 计算器在 distributional RL 中的重要性，从根本上联系 CDRL 和 Cramér 距离，并为基于样本的分类分布式 RL 算法提供了收敛性证明。

Feb, 2018

基于正态分布引导的连续控制分布式强化学习

通过使用马尔可夫链中心极限定理，以近似正态分布的形式建模价值分布，分析计算分位数，提出一种基于价值分布的不确定性的策略更新方法，并在 PPO 和 TRPO 算法上进行连续控制任务测试，显示出性能改进。

Aug, 2022

乐观陷阱：通过随机化风险准则的分布式强化学习

通过随机风险准则选择动作来避免一面倒的风险倾向的一种新型的分布式强化学习算法，证明了该方法的收敛性和最优性，并实证显示该方法在包括 Atari 55 游戏在内的各种环境下优于其他现有的基于分布的算法。

Oct, 2023

基于价值分布的模型化强化学习

基于模型的贝叶斯强化学习视角，本研究旨在学习马尔科夫决策过程中基于参数（认知）不确定性引发的值函数后验分布的不确定性，通过引入一个 Bellman 算子，我们提出了 Epistemic Quantile-Regression (EQR) 算法，该算法学习了一个值函数分布，可用于策略优化，在几个连续控制任务中进行评估，表现优于已建立的基于模型和无模型算法。

Aug, 2023

分布式训练的好处：强化学习小损失下限

探讨了分布式强化学习的优势，通过小损失边界证明了从非分布式方法中获得的边界不如小成本边界强。提出了在线分布式 RL 算法和基于启发式原则的离线 RL 算法，分别证明了其小损失的 PAC 边界和新颖的鲁棒性质。

May, 2023

评估分布偏移对强化学习性能的影响

针对分布转换情况下的强化学习进行严格评估的方法研究。

Feb, 2024

风险厌恶强化学习的分布式方法

我们提出了一种分布式方法，用于在风险规避马尔可夫决策过程中学习最优策略，该方法使用嵌套 Kusuoka 类型条件风险映射构造的动态风险度量来评估策略表现，利用了对应动态规划原理中嵌入的某些结构，使用深度神经网络逼近值函数的条件分布，避免了探索阶段的维度灾难，并使用随机选择的一系列模型参数探索了该方法的性能。

Feb, 2023