多阶段强化学习任务的协作策略开发

May, 2022

多阶段强化学习任务的协作策略开发

Developing cooperative policies for multi-stage reinforcement learning tasks

Jordan Erskine, Chris Lehnert

TL;DR本文提出了合作连续策略（CCP) 方法，可以让连续的代理合作解决长时间跨度的多阶段任务，在多个测试领域中，该方法成功地超越了一组简单策略，单一代理以及另一个顺序 HRL 算法。

Abstract

Many hierarchical reinforcement learning algorithms utilise a series of independent skills as a basis to solve tasks at a higher level of reasoning. These algorithms don't consider the value of using skills that are cooperative instead of independent. This paper proposes the Cooperativ

hierarchical reinforcement learning cooperative policies multi-stage tasks consecutive agents critic

发现论文，激发创造

学习多级层次结构及回溯

本文介绍了一种新的 Hierarchical Reinforcement Learning (HRL) 框架 - Hierarchical Actor-Critic (HAC)，该框架能够克服在试图同时学习多个策略层级时出现的不稳定性问题，并能够在连续状态和动作空间的任务中成功地学习 3 级层级。

Dec, 2017

多任务强化学习中的层次和可解释技能获取

本文提出了一种用于有效的多任务强化学习的新框架，该框架可以训练代理人使用分层策略，决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系，并在 Minecraft 游戏中进行了验证。

Dec, 2017

学习协作策略以解决 NP-hard 路径规划问题

本论文提出了一种新的层次化问题求解策略，称为学习协作策略，它使用两个迭代的深度强化学习策略：播种机和修订机，旨在有效地找到近似最优解，扩展了深度强化学习框架在解决 NP-hard 路由问题方面的应用。

Oct, 2021

通过策略搜索学习合作

本文提出了一种基于梯度的分布式策略搜索方法，用于合作博弈中的部分可观测环境，比较了本地最优和纳什均衡的概念，实验结果表明该方法的有效性。

Aug, 2014

多智能体演员 - 评论家在混合协作竞争环境下的应用

本文研究深度强化学习在多智能体领域的应用，提出一种基于演员 - 评论家方法的适应性策略，可成功学习需要多智能体协作的复杂策略，并通过使用每个智能体的策略集进行训练，得到了更强大、更健壮的策略。在合作和竞争场景中，我们的方法相比现有方法能够发现各种物理和信息协调策略。

Jun, 2017

基于灵活约束的层次强化学习优化

该论文主要研究通过约束条件解决具有复杂安全约束的长期决策问题，提出了一种结合高级有约束规划代理和低级目标条件强化学习代理的机制，能够处理成本分布的约束，并在实验中验证了其实用性。

Feb, 2023

多智能体共识强化学习

本文提出一种基于多智能体共有信息的分层策略树的算法（MACKRL）实现复杂的去中心化协调，其中每个智能体可以独立地学习策略，并根据其共同知识进行协调，并在包括随机矩阵游戏和 StarCraft II 单元微管理等任务上实现更好的性能。

Oct, 2018

持续增强学习的策略融合

提出了一种针对深度强化学习中灾难性遗忘问题的方法，名为 “策略整合” 模型，能够在不同时间尺度上改进学习效果，适应环境变化并通过历史经验规范化当前策略，从而提高连续学习的效果，在单任务、交替双任务和多智能体竞争自我对抗环境下均表现出了比基线优异的学习效果。

Feb, 2019

合作游戏的交互式逆强化学习

该研究探讨了如何设计自主智能体，使其在没有访问联合奖励函数的情况下能够有效地与潜在的次优合作伙伴进行合作。我们将这个问题建模为一个合作的、情节性的两个代理 Markov 决策过程。我们分析了该交互式两个代理场景中关于奖励函数的信息如何被获得，结果显示学习代理的策略对转移函数具有显著影响时，奖励函数可以被高效地学习。

Nov, 2021

完全去中心化的合作多智能体强化学习：调查

该论文系统地回顾了两种全面分散设置下的全面分散方法，即最大化所有代理的共享奖励和最大化所有代理的个人奖励之和，并讨论了未来研究方向。

Jan, 2024