CTD4 - 深度连续分布式算法与卡尔曼多评判员融合的演员 - 评论家代理

May, 2024

CTD4 - 深度连续分布式算法与卡尔曼多评判员融合的演员 - 评论家代理

CTD4 - A Deep Continuous Distributional Actor-Critic Agent with a Kalman Fusion of Multiple Critics

David Valencia, Henry Williams, Trevor Gee, Bruce A MacDonaland, Minas Liarokapis

TL;DR本文介绍了一种基于连续动作空间的连续分布式无模型强化学习算法，通过引入多个融合的评论家和 Kalman 融合机制来简化实现分布式强化学习，并验证了其在执行复杂的连续控制任务中具有易于训练和高样本效率的解决方案。

Abstract

categorical distributional reinforcement learning (CDRL) has demonstrated superior sample efficiency in learning complex tasks compared to conventional Reinforcement Learning (RL) approaches. However, the practical application of CDRL is encumbered by challenging projection steps, deta

categorical distributional reinforcement learning continuous distributional model-free rl continuous action spaces actor-critic architecture kalman fusion mechanism

发现论文，激发创造

连续控制增强学习：分布分布式 DrQ 算法

Distributed Distributional DrQ 是一个无模型离线 RL 算法，用于连续控制任务，基于代理的状态和观测，是一个带有数据增强和评论家值函数分布性观点的演员 - 评论家方法。通过使用分布分布式 DDPG 作为基础，该算法在各种连续控制任务中取得了出色的性能。

Apr, 2024

分类分布式强化学习的分析

本文为分布式 RL 算法提出了一个分析 CDRL 算法的框架，证明了投影分布 Bellman 计算器在 distributional RL 中的重要性，从根本上联系 CDRL 和 Cramér 距离，并为基于样本的分类分布式 RL 算法提供了收敛性证明。

Feb, 2018

深度强化学习的连续控制

本论文将 Deep Q-Learning 算法应用于连续动作域，并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法，可在连续动作空间中进行操作，成功解决了 20 多个模拟物理任务，并能与完全访问动态并了解其导数的规划算法相竞争，并证明该算法对许多任务能够进行端到端学习。

Sep, 2015

证明收敛性的有约束深度演员 - 评论家单循环算法学习强化学习

本文提出了一种针对现实问题中非凸随机约束并高成本与环境交互的一次迭代式深度演员 - 评论家算法框架，并使用约束随机连续逼近方法来处理非凸随机目标和约束。

Jun, 2023

多样本目标值用于分布式强化学习的探索

本文介绍了一种基于多样本目标值的分布式强化学习算法 E2DC，能够更加准确地学习状态的回报分布，并能够在 UCB 探索的基础上提高性能。作者在一系列连续控制任务上验证了该算法的有效性，并通过可视化和分析展示了学习过程中回报分布的演化。

Feb, 2022

通过 Q 学习解决连续控制问题

本文提出了一种将单智能体控制转化为多智能体协作学习的方法 —— 将动作离散化并结合价值分解，从而将 Q-learning 方法应用于高维连续动作空间的情况，能够在学习来自特征或像素的信息的情况下与最先进的连续动作优化技术相匹敌，并在多种连续控制任务中表现出强大的性能。

Oct, 2022

合作式深度强化学习

本文提出了一种协作深度强化学习框架，其中包括深度知识蒸馏方法、异构学习任务深度对齐网络、有效的协同 A3C 算法等，用于在不同学习任务中执行自适应知识转移

Feb, 2017

离线强化学习的评论引导决策转换器

离线强化学习中的 CGDT 方法结合了基于值函数的方法和决策 Transformer 的轨迹建模能力，通过整合学习的值函数，保证了指定目标回报和动作预期回报之间的直接对齐，从而弥合了 RCSL 的确定性和基于值函数方法的概率特性之间的差距。在随机环境和 D4RL 基准数据集上进行的实证评估表明，CGDT 方法优于传统的 RCSL 方法，展示了 CGDT 在离线强化学习领域中提升技术水平并扩展 RCSL 在广泛强化学习任务中的适用性的潜力。

Dec, 2023

DSAC: 基于分布式的软演员 - 评论家算法用于风险敏感强化学习

DSAC 是一种新的强化学习算法，它通过利用积累奖励的分布信息来获得更好的性能。通过将 SAC 与基本分布式目标观点无缝集成， DSAC 考虑了行动和回报中的随机性，并在几个连续控制基准测试中超越了现有技术基线。除此之外，我们还探讨了三个具体的与风险相关的度量标准：百分位数，均值 - 方差和扭曲期望，通过分布建模实现了 RL 中的风险敏感。

Apr, 2020

DSAC-T: 具有三个改进的分布式软行动者 - 评论家算法

这篇论文介绍了对标准的 DSAC 算法进行三个重要修正，包括评论家梯度调整、双值分布学习和基于方差的目标回报剪辑，修改后的 RL 算法被称为 DSAC-T 或 DSAC-v2，在各种基准任务中的表现进行了系统评估，结果显示，在所有测试环境中，不需要任何任务特定的超参数调整，DSAC-T 超越了许多主流的无模型 RL 算法，包括 SAC、TD3、DDPG、TRPO 和 PPO，并且与标准版本相比，DSAC-T 确保了高度稳定的学习过程，并在不同的奖励尺度下具有相似的性能。

Oct, 2023