基于均值嵌入的分布式贝尔曼算子

Dec, 2023

基于均值嵌入的分布式贝尔曼算子

Distributional Bellman Operators over Mean Embeddings

Li Kevin Wenliang, Grégoire Déletang, Matthew Aitchison, Marcus Hutter, Anian Ruoss...

TL;DR我们提出了一个新颖的算法框架来进行分布式强化学习，基于学习回报分布的有限维均值嵌入。我们基于此框架推导出了几个新的动态规划和时间差分学习算法，提供了渐近收敛理论，并对算法在一套表格任务上的实证性能进行了研究。此外，我们展示了这种方法可以与深度强化学习简单地结合，获得一个在 Arcade Learning Environment 上改进了基线分布式方法的新的深度强化学习代理。

Abstract

We propose a novel algorithmic framework for distributional reinforcement learning, based on learning finite-dimensional mean embeddings of return distributions. We derive several new algorithms for →

distributional reinforcement learning algorithmic framework mean embeddings dynamic programming deep reinforcement learning

发现论文，激发创造

通过矩匹配实现分布式强化学习

本文提出了一种无限制统计学习方法，利用神经网络和最大均值偏差技术来匹配收益分布和 Bellman 目标，适用于分布式 RL 并在 Atari 游戏中获得了优异表现。

Jul, 2020

多样性投影集合的分布式强化学习

本研究探讨了如何通过集合及多样性实现可靠的不确定性估计和深度探索，即通过几个不同的分布投影和表现形式的集合所组成的 “分布整体学习”（distributional ensemble）来实现优秀的性能。

Jun, 2023

分布式强化学习中的统计和样本

本文介绍了利用统计估计回报分布的方法来设计和分析分布式强化学习算法，提出了一种新算法 EDRL，同时介绍了 ER-DQN，将 EDRL 应用在 Atari-57 游戏集上进行了评估。

Feb, 2019

群体系统的深度强化学习

提出了一种基于分布的平均嵌入（mean embeddings）状态表示法，适用于具有大量同质代理的群集系统；在深度多智能体强化学习中利用神经网络方式实现的平均嵌入表示法可实现最丰富的邻近智能体信息交换，促进更复杂的集体策略的发展。

Jul, 2018

关于分布贝尔曼方程解的研究

该研究考虑了一般的分布式贝尔曼方程，研究了其解的存在性、唯一性和收敛性，发现了其与多元仿射分布式方程的联系，并提出了应用于分布式强化学习领域的一般理论。

Jan, 2022

一种具有生成模型的近似最小最大优化的分布式强化学习

我们提出了一种新的算法，用于基于模型的分销式强化学习，经证明在逼近具有生成模型的回报分布方面是极小极大最优的（在对数因子上），解决了张等人（2023 年）的一个悬而未决的问题。我们的分析为分销式强化学习的类别方法提供了新的理论结果，并引入了一种新的分销式贝尔曼方程 —— 随机类别 CDF 贝尔曼方程，我们认为它具有独立的重要性。我们还提供了一个实验研究，比较了几种基于模型的分销式强化学习算法，其中对于实践者们有一些要点。

Feb, 2024

分类分布式强化学习的分析

本文为分布式 RL 算法提出了一个分析 CDRL 算法的框架，证明了投影分布 Bellman 计算器在 distributional RL 中的重要性，从根本上联系 CDRL 和 Cramér 距离，并为基于样本的分类分布式 RL 算法提供了收敛性证明。

Feb, 2018

基于正态分布引导的连续控制分布式强化学习

通过使用马尔可夫链中心极限定理，以近似正态分布的形式建模价值分布，分析计算分位数，提出一种基于价值分布的不确定性的策略更新方法，并在 PPO 和 TRPO 算法上进行连续控制任务测试，显示出性能改进。

Aug, 2022

SBEED：非线性函数逼近的收敛强化学习

本文使用 Nesterov 的平滑技术和 Legendre-Fenchel 变换将贝尔曼方程式重新构成一个新的原始对偶优化问题，并开发了一个名为平滑贝尔曼误差嵌入的新算法来解决这个优化问题，其中可以使用任何可微分类函数。我们提供了通用非线性函数逼近的第一个收敛保证，并分析了算法的样本复杂度。经验上，我们的算法在几个基准控制问题中与最先进的基准线相比表现得非常好。

Dec, 2017

分位数回归的分布式强化学习

本文介绍了一种分布强化学习方法，不仅仅用于估计价值函数的平均值，而是显式地建模返回的分布，通过闭合实验和文献相关得到了一些理论和算法上的结果，最后在 Atari 2600 游戏中，该算法的表现显著优于许多 DQN 的改进方案，包括相关的分布式算法 C51。

Oct, 2017