一种具有生成模型的近似最小最大优化的分布式强化学习

Feb, 2024

一种具有生成模型的近似最小最大优化的分布式强化学习

Near-Minimax-Optimal Distributional Reinforcement Learning with a Generative Model

Mark Rowland, Li Kevin Wenliang, Rémi Munos, Clare Lyle, Yunhao Tang...

TL;DR我们提出了一种新的算法，用于基于模型的分销式强化学习，经证明在逼近具有生成模型的回报分布方面是极小极大最优的（在对数因子上），解决了张等人（2023 年）的一个悬而未决的问题。我们的分析为分销式强化学习的类别方法提供了新的理论结果，并引入了一种新的分销式贝尔曼方程 —— 随机类别 CDF 贝尔曼方程，我们认为它具有独立的重要性。我们还提供了一个实验研究，比较了几种基于模型的分销式强化学习算法，其中对于实践者们有一些要点。

Abstract

We propose a new algorithm for model-based distributional reinforcement learning (RL), and prove that it is minimax-optimal for approximating return distributions with a generative model (up to logarithmic factor

algorithm model-based distributional reinforcement learning return distributions generative model categorical approaches

发现论文，激发创造

分类分布式强化学习的分析

本文为分布式 RL 算法提出了一个分析 CDRL 算法的框架，证明了投影分布 Bellman 计算器在 distributional RL 中的重要性，从根本上联系 CDRL 和 Cramér 距离，并为基于样本的分类分布式 RL 算法提供了收敛性证明。

Feb, 2018

分布式强化学习中的策略评估算法

用分布动态规划算法来近似求解包括具有连续奖励分布以及潜在重尾特性在内的马尔科夫决策过程中未知的回报分布，通过引入分位数样条离散化的概念，该算法在模拟实验中显示出有希望的结果，为 DRL 中常用的概率度量推导了新的性质。

Jul, 2024

分位数回归的分布式强化学习

本文介绍了一种分布强化学习方法，不仅仅用于估计价值函数的平均值，而是显式地建模返回的分布，通过闭合实验和文献相关得到了一些理论和算法上的结果，最后在 Atari 2600 游戏中，该算法的表现显著优于许多 DQN 的改进方案，包括相关的分布式算法 C51。

Oct, 2017

分布式训练的好处：强化学习小损失下限

探讨了分布式强化学习的优势，通过小损失边界证明了从非分布式方法中获得的边界不如小成本边界强。提出了在线分布式 RL 算法和基于启发式原则的离线 RL 算法，分别证明了其小损失的 PAC 边界和新颖的鲁棒性质。

May, 2023

强化学习中生成模型分布稳健性的研究

研究强化学习中模型鲁棒性以减少实践中的模拟与实际之间的差距，采用分布鲁棒马尔可夫决策过程的框架，在规定的不确定性集合范围内学习最优性能策略，对于不同的不确定性集合，分别用基于模型的方法分析分布鲁棒价值迭代的采样复杂性，结果表明分布鲁棒马尔可夫决策过程并不一定比标准马尔可夫决策过程更易或更难学习，而是依赖于不确定性集合的大小和形状。

May, 2023

通过生成模型在模型为基础的强化学习中突破样本量限制

研究强化学习的样本效率，证明了两种算法的最小最优性，同时实现了目标准确率的最小最优样本复杂度，这是目前首次提供涵盖整个样本范围的最小最优保证。

May, 2020

分布受益的更多好处：强化学习的二阶边界

在这篇论文中，我们证明了 Distributional Reinforcement Learning (DistRL) 可以在具有函数逼近的一般环境中获得在线和离线强化学习的二阶上界。这些二阶上界是与回报方差相关的实例相关性上界，我们证明这些上界比以前已知的分布式强化学习小损失上界更为紧密。据我们所知，我们的结果是低秩 MDP 和离线强化学习的首个二阶上界。当专门针对上下文幕问题（一步强化学习问题）时，我们展示了基于分布式学习的乐观算法能够同时实现二阶最坏情况悔恨上界和二阶间隙依赖上界。我们还通过真实世界数据集在上下文幕问题中实证了 DistRL 的优势。我们强调，我们使用 DistRL 的分析相对简单，遵循面对不确定性的乐观主义的一般框架，不需要加权回归。我们的结果表明 DistRL 是在一般强化学习环境中获得二阶上界的一个有前途的框架，进一步巩固了 DistRL 的优势。

Feb, 2024

具有生成模型的基于模型的强化学习是极小 - 极大最优的

本文研究了使用生成模型获取具有 ε- 最优策略的折扣马尔可夫决策过程（MDP）的样本复杂度和计算复杂度，通过最自然的插件方法来构建 MDP 中的转移模型的最大似然估计值，并确定它是否非渐近地在给定固定样本大小时找到质量最优策略的极小 / 极大值。结果发现，任何高精度的插件模型的解法，都能在真正的基本 MDP 中提供一个 ε- 最优策略，这种方法不会将算法绑定到采样程序中。

Jun, 2019

乐观陷阱：通过随机化风险准则的分布式强化学习

通过随机风险准则选择动作来避免一面倒的风险倾向的一种新型的分布式强化学习算法，证明了该方法的收敛性和最优性，并实证显示该方法在包括 Atari 55 游戏在内的各种环境下优于其他现有的基于分布的算法。

Oct, 2023

通过矩匹配实现分布式强化学习

本文提出了一种无限制统计学习方法，利用神经网络和最大均值偏差技术来匹配收益分布和 Bellman 目标，适用于分布式 RL 并在 Atari 游戏中获得了优异表现。

Jul, 2020