图卷积强化学习

ICLROct, 2018

Graph Convolutional Reinforcement Learning

Jiechuan Jiang, Chen Dun, Tiejun Huang, Zongqing Lu

TL;DR本文提出了一种使用图卷积强化学习的方法，通过使用关系内核捕获代理之间的相互作用来适应多代理环境的动态，并利用逐渐增大感受野的卷积层产生潜在特征来学习合作，此外，为了保持一致性，还使用了时间关系正则化方法。实验表明，该方法在各种合作场景中显着优于现有方法。

Abstract

Learning to cooperate is crucially important in multi-agent environments. The key is to understand the mutual interplay between agents. However, multi-agent environments are highly dynamic, where agents keep moving and their neighbors change quickly. This makes it hard to learn abstrac

multi-agent environments graph convolutional reinforcement learning cooperation relation kernels temporal relation regularization

发现论文，激发创造

具有图卷积通信的反事实多智体强化学习

该研究提出了一种基于图卷积和多因素策略梯度的架构，用于解决在多观察环境下多智能体之间合作最大化系统功用时的通信和奖励分配问题，并在一系列任务中取得了优异表现。

Apr, 2020

关系卷积网络：一种学习层次关系表示的框架

深度学习中一个日益成熟的研究领域是开发能够学习关系特征的显式表示的架构。本文提出了一个叫做 “关系卷积网络” 的架构框架，重点研究了学习分层关系表示的问题，并通过一系列实验展示了如何利用关系卷积网络提供有效的建模方法来处理具有层次结构的关系任务。

Oct, 2023

多智能体强化学习的群体感知协调图

我们提出了一种新的方法来推断组感知协作图（GACG），以捕捉基于当前观测到的代理之间的合作以及跨轨迹观察到的行为模式的组水平依赖关系，并在决策过程中使用该图进行信息交换。通过在 StarCraft II 微管理任务上进行评估，我们证明了 GACG 的卓越性能。进一步的消融研究为我们的方法的每个组成部分的有效性提供了实验证据。

Apr, 2024

多智能体团队中可迁移合作行为的学习

提出使用共享的代理 - 实体图来建模多智能体相互作用，并利用基于图的强化学习训练代理实现协作行为，实现了对多种任务的有效解决，并展示了其泛化能力。

Jun, 2019

基于图卷积神经网络的多智能体强化学习：电力市场发电策略的最优化竞价策略

本研究提出了一种基于 DRL 和 GCN 的分布式学习算法，使代理人能够通过从环境中获取反馈来改进投标策略并增加利润，同时将空间系统拓扑的信息输入到 GCN 中，帮助代理人了解系统结构并提高决策的准确性。在 IEEE 30-bus 系统和 IEEE 39-bus 系统的测试中表明该算法具有较好的泛化能力和更高的利润。

Aug, 2022

基于超图神经网络的多智能体系统高效策略生成

本文介绍了一种基于邻域的多智能体强化学习算法，并提出了两种基于超图结构的变体方法，其中利用超图卷积网络实现了信息提取和表示学习，具有实现有效合作的显著优势。

Mar, 2022

图增强强化学习在协作问题解决中的有效小组形成

本研究通过图论和强化学习提出一种新方法，建立一个数据集的图结构，将参与者作为代理人，学习一个优化的图结构来反映有效的群体动态，并利用聚类技术根据学习到的图划分明确的群体结构。该研究对协作工作和教育心理学领域做出贡献，为组织团队建设、课堂环境和其他需要重视群体动态的协作场景提供实际应用指导，并突显了图论和强化学习在社会和行为科学中的潜力和未来工作的经验验证。

Mar, 2024

基于图卷积的深度强化学习在混合交通环境下的多智能体决策

本研究提出了一种利用图神经网络和深度强化学习相结合的图强化学习方法，以提高自主车辆互动交通场景下的决策生成精度。在实验验证中，该方法能够提取交互情景特征，并生成更好的合作行为。

Jan, 2022

多智能体强化学习中推断潜在时间稀疏协调图

在合作多智能体强化学习中，有效的智能体协调至关重要。为了解决现有方法中对历史经验的忽视和稠密图计算的可扩展性问题，我们提出了一种基于潜在时间稀疏协调图的多智能体强化学习方法。该方法利用智能体的历史观测计算智能体对概率矩阵，并基于此矩阵生成稀疏图，以促进智能体之间的知识交流，同时捕捉智能体之间的依赖关系和关系不确定性。该方法还引入了 “预测未来” 和 “推断现在” 两个创新特性，使得该方法能够从有限数据中构建历史和实时信息的时间图，促进策略学习和有效协作。实验结果表明，该方法在 StarCraft II 基准测试中具有卓越的性能。

Mar, 2024

基于递归卷积神经网络的强化学习

使用递归卷积神经网络的值迭代，以及部分可观测环境下的状态信念传递和最佳行动选择来更好地利用强化学习问题的固有结构，通过 RCNNs 回传梯度允许系统显式地学习与底层 MDP 相关联的变换模型和奖励函数，这是经典基于模型的 RL 的一种优秀替代方法。我们通过机器人规划问题的仿真来评估所提出的算法，并展示了我们框架降低重新规划成本、学习准确的 MDP 模型以及使用学习的模型重新规划以实现接近最优策略的能力。

Jan, 2017