用于大规模机器人控制的图策略梯度

Jul, 2019

用于大规模机器人控制的图策略梯度

Graph Policy Gradients for Large Scale Robot Control

Arbaaz Khan, Ekaterina Tolstaya, Alejandro Ribeiro, Vijay Kumar

TL;DR本文提出了一种叫做 Graph Policy Gradients (GPG) 的新算法，使用图卷积神经网络 (GCN) 来参数化机器人的策略，处理大量的同构机器人问题，并且证明实验证明，与采用完全连接网络的现有强化方法相比，我们提出的方法能够更好地扩展。更重要的是，我们通过使用局部学习的筛选器，证明了能够将仅在三个机器人上训练的策略 “零 - shot” 传输到 100 多个机器人。

Abstract

In this paper, we consider the problem of learning policies to control a large number of homogeneous robots. To this end, we propose a new algorithm we call graph policy gradients (GPG) that exploits the underlyi

homogeneous robots graph policy gradients graph convolutional neural network formation flying zero-shot transfer policies

发现论文，激发创造

基于图神经网络的分散式控制器

本文提出一种利用图网络来从数据中学习去中心化控制器的框架，通过解决群聚问题展示了其在动力学系统中的应用潜力。

Mar, 2020

面向目标的分子图生成的图卷积策略网络

该研究提出了图卷积策略网络 (GCPN) 作为一种通过强化学习进行目标导向图形生成的算法。该模型通过策略梯度来优化特定领域的奖励和对抗损失，并在包含特定领域规则的环境中执行。实验结果表明，GCPN 在化学性质优化上比现有技术基线提高了 61％，同时产生的分子类似已知分子，在约束属性优化任务上实现了 184％的提高。

Jun, 2018

通过分析策略梯度训练高效控制器

提出一种基于解析策略梯度法（APG）的控制方法来解决机器人系统控制问题，与 MPC 控制方法相比，该方法能够实现类似的轨迹跟踪性能，但计算时间要少一个数量级，在控制设计和优化领域有着极高的实际应用价值。

Sep, 2022

用于分散式多机器人路径规划的图形神经网络

本研究提出了一种组合模型，结合卷积神经网络和图神经网络，用于多机器人路径规划中的通讯问题，并在模拟中取得了接近专家算法的性能和有效性。

Dec, 2019

用于学习机器人团队协调的图神经网络

本文展示了如何利用图神经网络来学习连接的机器人团队的分布式协调机制，并通过将机器人队伍建模为图形来捕捉机器人协调的关系。训练过程中，机器人学习如何传递信息和更新内部状态，以达到目标行为，然后通过局部估计团队网络拓扑的代理方法来考虑更复杂的问题。

May, 2018

基于图策略网络的图可迁移主动学习

通过强化学习训练一种基于图神经网络 (GNN) 的策略网络，来学习如何高效地标注图中的节点，以减少 GNN 训练的标注成本。该研究还证明了所学习的策略网络在同一领域和不同领域的图之间进行迁移学习的有效性。

Jun, 2020

分布式分布式确定性策略梯度

本研究采用分布式角度的强化学习来适用于连续控制环境，提出了分布式分布式深度确定策略梯度算法 D4PG，结合了 N 步回报和优先经验回放等简单改进。实验结果表明，在各种控制任务、难以操作的任务和一组基于障碍的定位任务中，D4PG 算法均实现了最先进的性能。

Apr, 2018

机器人运动的 DeepCPG 策略

本研究利用中央模式生成器（CPGs）构建深度强化学习的 DeepCPG 策略层来实现多腿机器人的行走行为，证明其在高维传感器空间中具有实验有效性，并进一步通过模块化机器人和多智能体深度强化学习的方法来推广其应用，展示了生物学原理所建立的更高智能系统的潜在革命性应用。

Feb, 2023

PolicyClusterGCN: 为训练图卷积网络识别有效簇群

本文提出 PolicyClusterGCN, 该算法基于在线强化学习框架，学习策略网络以确定 GCN 训练的良好聚类，使用 Markov 决策过程公式化策略网络，该算法在节点分类任务上实现了超越现有技术的性能。

Jun, 2023

使用深度神经网络学习广义反应策略

本文提出了一种新的学习规划的方法，使用深度神经网络学习 “广义反应策略”（GRP），以映射问题实例和状态到动作，并用于自动学习启发式函数，通过对两个困难的规划问题领域的广泛实验，我们展示了使用我们的方法可以简化决策制定的复杂性和减少人类干预。

Aug, 2017