REValueD: 正则化的集合值分解方法用于可分解马尔可夫决策过程

ICLRJan, 2024

REValueD: 正则化的集合值分解方法用于可分解马尔可夫决策过程

REValueD: Regularised Ensemble Value-Decomposition for Factorisable Markov Decision Processes

David Ireland, Giovanni Montana

TL;DRDiscrete-action 强化学习算法在具有高维离散行动空间的任务中常常表现不佳，由于可能的行动数量庞大。最近的一项进展利用来自多智能体强化学习的价值分解概念来解决这一挑战。本研究深入研究了价值分解的效应，揭示出其虽然减少了 Q-learning 算法固有的过高估计偏差，但却加大了目标方差。为了对抗这一挑战，我们提出了一个评论家集合来减轻目标方差。此外，我们引入了一种正则化损失，帮助减轻一个维度上的探索性行动对其他维度上的最优行动价值的影响。我们的新算法 REValueD 在 DeepMind Control Suite 任务的离散化版本上经过测试，展示了卓越的性能，特别是在挑战性的人形和犬类任务中。我们进一步解剖了影响 REValueD 性能的因素，评估了正则化损失的重要性以及随着每个维度子行动数量的增加，REValueD 的可扩展性。

Abstract

discrete-action reinforcement learning algorithms often falter in tasks with high-dimensional discrete action spaces due to the vast number of possible actions. A recent advancement leverages value-decomposition,

discrete-action reinforcement learning value-decomposition target variance ensemble of critics regularisation loss

发现论文，激发创造

强化学习智能体迭代设计的价值函数分解

本文介绍如何将价值分解结合到广泛类的演员 - 评论家算法中，以协助迭代代理设计过程，包括引入基于价值分解的工具和一种新的奖励影响度量方法。

Jun, 2022

针对协作式多智能体强化学习的可扩展价值分解探索算法

本文提出了一种可扩展的价值分解探索方法（SVDE），包括可扩展的训练机制、内在奖励设计和探索性经验回放，以加速样本生成并改善探索问题。实验结果显示，在 StarCraft II 微观管理游戏中，该方法在几乎所有地图上实现了最佳性能。

Mar, 2023

利用世界模型的解缠以增强基于价值的多智能体强化学习

通过提出一种名为价值分解框架与解耦世界模型的新型基于模型的多智能体强化学习方法，本研究解决了多智能体在相同环境下实现共同目标的挑战，降低了样本复杂度，并通过实验结果表明，在 StarCraft II 微管理挑战中，该方法在样本效率和击败敌军方面表现出卓越的性能。

Sep, 2023

协作多智体学习的价值分解网络

利用价值分解网络架构解决合作多智能体强化学习中的观测部分性、虚假奖励和 “懒惰智能体” 问题，并在与共享权重、角色信息和信息通道相结合的情况下，在部分可观测的多智能体领域取得优越结果。

Jun, 2017

使用奇异值分解的深度强化学习表示与探索

该研究论文介绍了一个基于奇异值分解的方法，用于在领域中保留基础转换结构的表示，从而提供伪计数的估计，在多任务中展示了结果，并解决了部分可观测的环境下的难以探索的任务。

May, 2023

基于函数值动作空间的强化学习用于偏微分方程控制

本文提出了一种在深度确定性策略梯度算法中使用动作描述符的方法，可以更有效地控制高维连续动作偏微分方程。实验证明该方法比传统方法更高效。

Jun, 2018

时差动力学的特征子空间及其在强化学习中改善价值估计的应用

提出了一种新的深度强化学习的价值估计方法：Eigensubspace Regularized Critic (ERC)，该方法可以更高效、更稳定地进行价值估计，并在 DMControl 基准测试中，ERC 优于其他先进方法在 20 个任务上，具备在 Q 值估计和方差降低方面的显着优势。

Jun, 2023

正则化马尔科夫决策过程理论

本文提出了一种正则化的马尔可夫决策过程的一般理论，结合正则化贝尔曼算子和 Legendre-Fenchel 变换，可以分析诸如 Trust Region Policy Optimization、Soft Q-learning、Stochastic Actor Critic 或 Dynamic Policy Programming 等经典算法的错误传播分析，并与 Mirror Descent 进行了连接。

Jan, 2019

多智体价值分解中的冗余挑战

通过使用层次相关传播，我们将联合价值函数的学习与本地奖励信号的生成分开，提出了一个新的合作多智能体增强学习算法：相关分解网络。我们发现，尽管 VDN 和 Qmix 的性能会随着冗余智能体数目的增加而降低，但 RDN 则不受影响。

Mar, 2023

预测与评估：通过潜在未来预测分解价值估计

本文提出了一种名为 “Value Decomposition with Future Prediction” 的强化学习算法，通过将价值函数分解为潜在未来动态部分和与策略无关的轨迹回报部分，提高了价值估计的准确性，并在 OpenAI Gym 连续控制任务和几种具有延迟奖励的任务中进行了实验证明其有效性。

Mar, 2021