离散化正则化的多智能体演员 - 评论家算法
本文提出了一种新颖的多智能体强化学习方法,即多智能体连续动态策略梯度(MACDPP),用于解决多智能体控制的各种场景中的能力有限性和样本效率的问题。通过在中央化训练与分散执行的框架中引入相对熵正则化以及参与者 - 判别者结构,缓解了多个智能体策略更新的不一致性。通过多智能体协作和竞争任务以及传统控制任务,包括 OpenAI 基准和机械臂操纵,评估了 MACDPP 在学习能力和样本效率方面相对于相关的多智能体和广泛实施的信号 - 智能体基准的显著优越性,从而扩展了多智能体强化学习在有效学习具有挑战性的控制场景中的潜力。
Sep, 2023
本文提出了一种正则化的马尔可夫决策过程的一般理论,结合正则化贝尔曼算子和 Legendre-Fenchel 变换,可以分析诸如 Trust Region Policy Optimization、Soft Q-learning、Stochastic Actor Critic 或 Dynamic Policy Programming 等经典算法的错误传播分析,并与 Mirror Descent 进行了连接。
Jan, 2019
本研究介绍了多智能体强化学习中多样性的重要性,并提出了信息理论正则化和共享神经网络架构中的代理特定模块的方法,以促进代理之间的协作和多样性,实验结果表明该方法在 Google Research Football 和超难的星际争霸 II 微观管理任务上取得了最先进的表现。
Jun, 2021
我们研究了多智能体强化学习 (MARL) 在一般和马尔可夫博弈 (MG) 下具有一般函数逼近的情况。通过引入一种新颖的复杂度度量,即多智能体解耦系数 (MADC),我们旨在找到基于样本高效学习的最小假设。利用该度量,我们提出了首个统一的算法框架,可以在低 MADC 的情况下保证在模型为基础和模型无关的 MARL 问题中学习纳什均衡、粗粒度相关均衡和相关均衡的样本效率性。此外,我们还展示了与现有工作相比,我们的算法提供了可比较的次线性遗憾。此外,我们的算法结合了一个均衡求解器和一个单一目标优化次程序,用于求解每个确定性联合策略的正则化收益,从而避免在数据相关的约束条件下求解约束优化问题 (Jin et al. 2020; Wang et al. 2023),或在复杂的多目标优化问题 (Foster et al. 2023) 中执行抽样过程,因此更适合于实证实现。
Oct, 2023
提出一种针对 Markov 决策过程的熵正则化平均回报强化学习的一般性框架,通过使用条件熵来对联合状态 - 动作分布进行正则化,将一些先进的熵 - 正则化强化学习算法形式化为 Mirror Descent 或 Dual Averaging 的近似变体,并在简单的强化学习实验中展示了各种正则化技术对学习性能的影响。
May, 2017
提出了基于样本感知的策略熵正则化方法,以增强传统策略熵正则化方法用于探索的性能;通过利用回放缓存中可获取的样本分布,最大化加权和策略行为分布和缓存中样本行为分布的熵来完成对样本高效的探索。并基于提出的样本感知熵正则化方法,开发出了一个名为多样性演员 - 评论家算法(DAC)的实用算法,并通过数值实验获得了在增强学习应用中的显著性能优势。
Jun, 2020
提出了一种名为 DACER 的在线强化学习算法,通过利用扩散模型的能力来拟合多模态分布,增强策略的表征能力,并提出了一种估算扩散策略熵的方法,在 MuJoCo 基准和多模态任务上实验证明了算法的最先进性能。
May, 2024
本文介绍了一种使用深度循环多智能体演员 - 评论家框架(R-MADDPG)处理部分可观测设置和有限通信下多智能体协调的方法,并探究了循环效应对团队智能体表现和通信使用的影响。研究结果表明,该框架可以学习随时间变化的依赖关系,处理资源限制,并在智能体之间开发不同的通信模式。
Feb, 2020
该篇研究提出了一种新颖的离线强化学习算法 - Fisher-BRC,它使用神经网络学习参数,将既有离线数据的行为策略与网络学习的行为策略结合起来,实现了更快的收敛速度和更好的表现。
Mar, 2021
本文提出了一种基于 OMWU 方法的单环路政策优化算法,并在二人零和马尔可夫博弈中,通过控制正则化的程度,实现了有限时间的最后一次线性收敛到达量子响应均衡点,并在全信息离散设置中实现了收敛结果。
Oct, 2022