协变强化学习框架在协调运动控制中的应用
本文提出了一种新型的 3D-SGRL 体系结构,引入 Subequivariant Transformer (SET) 及几何对称性,用于广义物体的 RL 训练;在单任务、多任务和零样本泛化情形中验证过程证明了算法比现有方法更具实用性。
May, 2023
我们提出了一种新的方法来推断组感知协作图(GACG),以捕捉基于当前观测到的代理之间的合作以及跨轨迹观察到的行为模式的组水平依赖关系,并在决策过程中使用该图进行信息交换。通过在 StarCraft II 微管理任务上进行评估,我们证明了 GACG 的卓越性能。进一步的消融研究为我们的方法的每个组成部分的有效性提供了实验证据。
Apr, 2024
本文介绍了用于协作式多智能体强化学习的深度协调图(DCG)。DCG 通过协调图将所有智能体的联合价值函数因子化为智能体对之间的收益,从而在表征能力和泛化能力之间取得了灵活的折衷,解决了多智能体系统面临的相对过度泛化问题,在 StarCraft II 的微观管理任务中取得了显著的效果。
Sep, 2019
本文引入了一种深度隐式协调图 (DICG) 结构,用于多智能体强化学习中的协调问题,通过一个协调图神经网络实现隐式推理,实现了完全中央化和分散化之间的平衡,并在多个基准测试任务中表现出色。
Jun, 2020
本文研究多个协调代理的演示的模仿学习问题,提出了一种综合了无监督结构学习和传统模仿学习的方法来同时学习潜在的协调模型和单个策略,通过在团队运动中学习多个策略的行为建模问题,表明了本文方法的强大之处。
Mar, 2017
本文展示了如何利用图神经网络来学习连接的机器人团队的分布式协调机制,并通过将机器人队伍建模为图形来捕捉机器人协调的关系。训练过程中,机器人学习如何传递信息和更新内部状态,以达到目标行为,然后通过局部估计团队网络拓扑的代理方法来考虑更复杂的问题。
May, 2018
本文提出了 TransfQMix,一种用于多智能体强化学习(MARL)中更好地学习协作策略的新方法,将协作问题表示为潜在图结构的顶点特征,使用 transformer 代理进行图推理。文章介绍了该方法的设计,性能以及在 Spread 和 StarCraft II 环境中的比较结果
Jan, 2023
本文提出了一种使用图卷积强化学习的方法,通过使用关系内核捕获代理之间的相互作用来适应多代理环境的动态,并利用逐渐增大感受野的卷积层产生潜在特征来学习合作,此外,为了保持一致性,还使用了时间关系正则化方法。实验表明,该方法在各种合作场景中显着优于现有方法。
Oct, 2018
本文提出了一种基于图卷积网络的互动感知约束优化方法,通过同时训练运动预测和控制模块并共享一个包含社交上下文的潜在表示来鼓励安全驾驶和预测运动。实验结果表明,这种方法在 CARLA 城市驾驶模拟器上具有比基线更好的导航策略和运动预测性能。
Jun, 2022
基于强化学习的运动规划在自主导航到机器人操控等方面已显示出超越传统方法的潜力。本文针对部分可观察多智能体对抗潜逃游戏(PEG)中规划机动任务展开研究。我们提出了一种分层架构,将高层扩散模型与低层强化学习算法结合,分别用于全局路径规划和回避行为推理。该方法通过利用扩散模型引导强化学习算法进行更高效的探索,并提高了可解释性和预测能力,相较于基准模型的表现提高了 51.2%。
Mar, 2024