多样本目标值用于分布式强化学习的探索

ICMLFeb, 2022

多样本目标值用于分布式强化学习的探索

Exploration with Multi-Sample Target Values for Distributional Reinforcement Learning

Michael Teng, Michiel van de Panne, Frank Wood

TL;DR本文介绍了一种基于多样本目标值的分布式强化学习算法 E2DC，能够更加准确地学习状态的回报分布，并能够在 UCB 探索的基础上提高性能。作者在一系列连续控制任务上验证了该算法的有效性，并通过可视化和分析展示了学习过程中回报分布的演化。

Abstract

distributional reinforcement learning (RL) aims to learn a value-network that predicts the full distribution of the returns for a given state, often modeled via a quantile-based critic. This approach has been successfully integrated into common RL methods for continuous control, giving

distributional reinforcement learning multi-sample target values ucb-based exploration continuous control tasks e2dc

发现论文，激发创造

分布式软 actor-critic 算法：用于解决价值估计误差的离策略强化学习

该论文提出了一种分布式软演员 - 评论家算法 (DSAC)，通过学习状态 - 动作回报的分布函数来适应性地调整 Q 值函数的更新步长，进而缓解 Q 值过高导致的策略性能下降。通过将返回分布函数嵌入最大熵 RL 中，开发了一种分布式软政策迭代框架 (DSPI)，并提出了一个名为 DSAC 的深度离线演员 - 评论家算法的变体，以解决梯度爆炸和梯度消失等问题，并在 MuJoCo 连续控制任务套件上取得了最先进的性能。

Jan, 2020

DSAC-T: 具有三个改进的分布式软行动者 - 评论家算法

这篇论文介绍了对标准的 DSAC 算法进行三个重要修正，包括评论家梯度调整、双值分布学习和基于方差的目标回报剪辑，修改后的 RL 算法被称为 DSAC-T 或 DSAC-v2，在各种基准任务中的表现进行了系统评估，结果显示，在所有测试环境中，不需要任何任务特定的超参数调整，DSAC-T 超越了许多主流的无模型 RL 算法，包括 SAC、TD3、DDPG、TRPO 和 PPO，并且与标准版本相比，DSAC-T 确保了高度稳定的学习过程，并在不同的奖励尺度下具有相似的性能。

Oct, 2023

DSAC: 基于分布式的软演员 - 评论家算法用于风险敏感强化学习

DSAC 是一种新的强化学习算法，它通过利用积累奖励的分布信息来获得更好的性能。通过将 SAC 与基本分布式目标观点无缝集成， DSAC 考虑了行动和回报中的随机性，并在几个连续控制基准测试中超越了现有技术基线。除此之外，我们还探讨了三个具体的与风险相关的度量标准：百分位数，均值 - 方差和扭曲期望，通过分布建模实现了 RL 中的风险敏感。

Apr, 2020

连续控制增强学习：分布分布式 DrQ 算法

Distributed Distributional DrQ 是一个无模型离线 RL 算法，用于连续控制任务，基于代理的状态和观测，是一个带有数据增强和评论家值函数分布性观点的演员 - 评论家方法。通过使用分布分布式 DDPG 作为基础，该算法在各种连续控制任务中取得了出色的性能。

Apr, 2024

基于正态分布引导的连续控制分布式强化学习

通过使用马尔可夫链中心极限定理，以近似正态分布的形式建模价值分布，分析计算分位数，提出一种基于价值分布的不确定性的策略更新方法，并在 PPO 和 TRPO 算法上进行连续控制任务测试，显示出性能改进。

Aug, 2022

分位数回归的分布式强化学习

本文介绍了一种分布强化学习方法，不仅仅用于估计价值函数的平均值，而是显式地建模返回的分布，通过闭合实验和文献相关得到了一些理论和算法上的结果，最后在 Atari 2600 游戏中，该算法的表现显著优于许多 DQN 的改进方案，包括相关的分布式算法 C51。

Oct, 2017

基于分布式强化学习的高效探索技术

本论文提出的一种深度深度强化学习探索方法具有两个组成部分：有一个递减的时间表来抑制内在不确定性，一个探索奖励是从所学分布的上分位数中计算出来的，实验结果表明，我们的算法在 14 个 Atari 2600 游戏中有 12 个游戏取得了比 QR-DQN 更好的成绩，在难度较大的 3D 驾驶模拟器 (CARLA) 中，我们的算法安全奖励达到了近乎最优，比 QRDQN 快两倍。

May, 2019

分布式健壮强化学习与交互式数据采集：基本难题与近似最优算法

通过交互式数据收集，我们引入消失的最小值假设来解决强化学习中的 sim-to-real 差距问题，为设计样本高效的算法提供了足够的条件，并伴随着尖锐的样本复杂性分析。

Apr, 2024

CTD4 - 深度连续分布式算法与卡尔曼多评判员融合的演员 - 评论家代理

本文介绍了一种基于连续动作空间的连续分布式无模型强化学习算法，通过引入多个融合的评论家和 Kalman 融合机制来简化实现分布式强化学习，并验证了其在执行复杂的连续控制任务中具有易于训练和高样本效率的解决方案。

May, 2024

用于无模型强化学习的多状态 TD 目标

提出了一种基于增强的多状态 TD 目标的完整的演员 - 评论家算法，该算法将回放缓冲区管理与深度确定性策略优化和软演员评论家相结合，实验结果表明采用 MSTD 目标的算法相比传统方法显著提高了学习性能。

May, 2024