通过矩匹配实现分布式强化学习

AAAIJul, 2020

Distributional Reinforcement Learning via Moment Matching

Thanh Tang Nguyen, Sunil Gupta, Svetha Venkatesh

TL;DR本文提出了一种无限制统计学习方法，利用神经网络和最大均值偏差技术来匹配收益分布和 Bellman 目标，适用于分布式 RL 并在 Atari 游戏中获得了优异表现。

Abstract

We consider the problem of learning a set of probability distributions from the empirical Bellman dynamics in distributional reinforcement learning (RL), a class of state-of-the-art methods that estimate the distribution, as opposed to only the expectation, of the total return. We form

distributional reinforcement learning neural networks maximum mean discrepancy distribution approximation atari games

发现论文，激发创造

分位数回归的分布式强化学习

本文介绍了一种分布强化学习方法，不仅仅用于估计价值函数的平均值，而是显式地建模返回的分布，通过闭合实验和文献相关得到了一些理论和算法上的结果，最后在 Atari 2600 游戏中，该算法的表现显著优于许多 DQN 的改进方案，包括相关的分布式算法 C51。

Oct, 2017

分布式强化学习中的统计和样本

本文介绍了利用统计估计回报分布的方法来设计和分析分布式强化学习算法，提出了一种新算法 EDRL，同时介绍了 ER-DQN，将 EDRL 应用在 Atari-57 游戏集上进行了评估。

Feb, 2019

基于均值嵌入的分布式贝尔曼算子

我们提出了一个新颖的算法框架来进行分布式强化学习，基于学习回报分布的有限维均值嵌入。我们基于此框架推导出了几个新的动态规划和时间差分学习算法，提供了渐近收敛理论，并对算法在一套表格任务上的实证性能进行了研究。此外，我们展示了这种方法可以与深度强化学习简单地结合，获得一个在 Arcade Learning Environment 上改进了基线分布式方法的新的深度强化学习代理。

Dec, 2023

通过离策略分布匹配实现的模仿学习

本研究提出一种名为 ValueDICE 的基于离线数据的策略优化算法，它使用分布匹配方法来提高数据利用效率并优化如何评估专家演示数据的不同媒介投放，实现了在模拟学习测试上的最佳性能。

Dec, 2019

一种非情节式强化学习的状态分布匹配方法

提出一种名为 MEDAL 的新方法，它将反向策略训练成与提供的演示中的状态分布匹配，以使代理保持接近与任务相关的状态，从而为前向策略提供易于和困难的起始状态，而且在连续控制任务上匹配或优于先前的方法，同时做出比以前更少的假设。

May, 2022

DM$^2$: 分布匹配的去中心化多智能体强化学习

本研究讨论无集中式组分和显式通讯的分布式多智能体学习，研究表明分布式匹配技术可用于协调独立智能体之间的协作，开发了一种实用的基于样本轨迹的算法（DM^2），已在 StarCraft 领域验证。

Jun, 2022

基于正态分布引导的连续控制分布式强化学习

通过使用马尔可夫链中心极限定理，以近似正态分布的形式建模价值分布，分析计算分位数，提出一种基于价值分布的不确定性的策略更新方法，并在 PPO 和 TRPO 算法上进行连续控制任务测试，显示出性能改进。

Aug, 2022

关于强化学习和分布匹配的论文，用于微调语言模型以避免灾难性遗忘

研究表明 Reward Maximization 和 Distribution Matching 之间存在理论上的联系，并发现两种方法在提高约束满足度、稳定性和样本效率方面添加基线的好处。

Jun, 2022

强化学习中生成模型分布稳健性的研究

研究强化学习中模型鲁棒性以减少实践中的模拟与实际之间的差距，采用分布鲁棒马尔可夫决策过程的框架，在规定的不确定性集合范围内学习最优性能策略，对于不同的不确定性集合，分别用基于模型的方法分析分布鲁棒价值迭代的采样复杂性，结果表明分布鲁棒马尔可夫决策过程并不一定比标准马尔可夫决策过程更易或更难学习，而是依赖于不确定性集合的大小和形状。

May, 2023

强化学习的分布视角

本文阐述了价值分配的重要性，提出了一种基于价值分配的学习算法，并通过实证结果证明了该算法的有效性。

Jul, 2017