具有线性函数逼近的分布式强化学习

Feb, 2019

具有线性函数逼近的分布式强化学习

Distributional reinforcement learning with linear function approximation

Marc G. Bellemare, Nicolas Le Roux, Pablo Samuel Castro, Subhodeep Moitra

TL;DR本文提出了一种完全基于 Cramér 距离的分布式算法，该算法可以与线性函数逼近相结合，针对策略评估提供正式保证，并证明了分布式算法与函数逼近的收敛性，并得出 Cramér 分布方法可能比直接逼近值函数表现更差的结论。

Abstract

Despite many algorithmic advances, our theoretical understanding of practical distributional reinforcement learning methods remains limited. One exception is Rowland et al. (2018)'s analysis of the C51 algorithm in terms of the Cram\'er distance, but their results only apply to the tab

distributional reinforcement learning cramér distance linear function approximation policy evaluation convergence

发现论文，激发创造

分类分布式强化学习的分析

本文为分布式 RL 算法提出了一个分析 CDRL 算法的框架，证明了投影分布 Bellman 计算器在 distributional RL 中的重要性，从根本上联系 CDRL 和 Cramér 距离，并为基于样本的分类分布式 RL 算法提供了收敛性证明。

Feb, 2018

具有线性函数逼近的分布鲁棒离线强化学习

本论文介绍了一种用于解决强化学习中有限数据和训练测试环境不匹配的问题的分布式离线 RL 方法，该方法使用历史数据学习分布式鲁棒的策略，包括线性函数逼近的情况，提出了两种算法，得出了第一个样例复杂度的非渐近性结果，并展示了其在实验上的优越性。

Sep, 2022

基于 Quantile 回归的分布式强化学习的 Cramér 距离视角

本文研究分布强化学习中的分位回归，证明 Cram´er 距离得到的投影与 1-Wasserstein 距离的投影相同，并提出了一种低复杂度算法来计算 Cram´er 距离，在非交叉限制下，squared Cram´er 和分位回归损失具有共线性，从而揭示了分布强化学习中相关要素之间的联系。

Oct, 2021

预期和分布式强化学习的比较分析

通过对 tabular、线性和非线性逼近设置的分析，研究了分布式 RL 相对于标准 RL 的改进原因。在控制设置中，以经验分析比较了分布式 RL 和标准 RL 的方法，找出了分布式 RL 方法的改进来源。

Jan, 2019

一种具有生成模型的近似最小最大优化的分布式强化学习

我们提出了一种新的算法，用于基于模型的分销式强化学习，经证明在逼近具有生成模型的回报分布方面是极小极大最优的（在对数因子上），解决了张等人（2023 年）的一个悬而未决的问题。我们的分析为分销式强化学习的类别方法提供了新的理论结果，并引入了一种新的分销式贝尔曼方程 —— 随机类别 CDF 贝尔曼方程，我们认为它具有独立的重要性。我们还提供了一个实验研究，比较了几种基于模型的分销式强化学习算法，其中对于实践者们有一些要点。

Feb, 2024

分位数回归的分布式强化学习

本文介绍了一种分布强化学习方法，不仅仅用于估计价值函数的平均值，而是显式地建模返回的分布，通过闭合实验和文献相关得到了一些理论和算法上的结果，最后在 Atari 2600 游戏中，该算法的表现显著优于许多 DQN 的改进方案，包括相关的分布式算法 C51。

Oct, 2017

非线性分布式梯度时序差分学习

提出了分布式渐进时间差分（TD）学习的变体，并设计了新的分布式 GTD2 和分布式 TDC 算法，以及分布式 Greedy-GQ 控制设置算法。证明了分布式 GTD2 和 TDC 算法在一般光滑函数逼近器中的渐近几乎确定性收敛性。

May, 2018

多样性投影集合的分布式强化学习

本研究探讨了如何通过集合及多样性实现可靠的不确定性估计和深度探索，即通过几个不同的分布投影和表现形式的集合所组成的 “分布整体学习”（distributional ensemble）来实现优秀的性能。

Jun, 2023

分布鲁棒离线强化学习的极小极大最优和计算高效算法

分布式鲁棒离线强化学习是针对环境扰动进行鲁棒策略训练的一种方法，当面对大规模状态 - 动作空间时需要进行函数逼近。本研究提出了一种最小极大值最优算法，通过对线性参数化的模型进行实现，探索了实例依赖次优性分析在鲁棒离线强化学习中的应用，并揭示了鲁棒离线强化学习中的函数逼近与标准离线强化学习所面临的困难之间的本质区别。

Mar, 2024

乐观陷阱：通过随机化风险准则的分布式强化学习

通过随机风险准则选择动作来避免一面倒的风险倾向的一种新型的分布式强化学习算法，证明了该方法的收敛性和最优性，并实证显示该方法在包括 Atari 55 游戏在内的各种环境下优于其他现有的基于分布的算法。

Oct, 2023