多机器人任务分配中带有学习激励函数的大图匹配加权

Mar, 2024

多机器人任务分配中带有学习激励函数的大图匹配加权

Bigraph Matching Weighted with Learnt Incentive Function for Multi-Robot Task Allocation

Steve Paul, Nathan Maurer, Souma Chowdhury

TL;DR该论文介绍了一种使用图强化学习 (GRL) 框架来学习多机器人任务分配 (MRTA) 的启发式或激励的方法，其中使用胶囊注意力策略模型来学习如何赋予任务 / 机器人配对 (边) 在将任务集与机器人集连接的二分图中的权重。该方法与使用专家指定启发式的原始二分图匹配方法性能相当，但具有显著的鲁棒性优势。在训练过程中，学到的激励策略与专家指定的激励策略初始接近，然后稍微偏离其趋势。

Abstract

Most real-world multi-robot task allocation (MRTA) problems require fast and efficient decision-making, which is often achieved using heuristics-aided methods such as genetic algorithms, auction-based methods, an

multi-robot task allocation heuristics graph reinforcement learning bipartite graph matching capsule attention policy model

发现论文，激发创造

使用多头注意力深度强化学习解决动态图问题

本文提出一种名为 Graph Temporal Attention with Reinforcement Learning (GTA-RL) 的新型框架，针对动态组合优化问题学习启发式解决方案。该框架结构包括一个能够嵌入组合问题实例的时间特征的编码器和一个能够动态聚焦于嵌入特征以找到所需组合问题实例的解码器，并针对实时版本组合优化问题进行了扩展。实验证明，与现有方法相比，该方法在动态和实时图组合优化方面具有更高的效率和优化求解器的有效性。

Jan, 2022

神经二分图匹配的多机器人主动建图

本文介绍了一种名为 NeuralCoMapping 的算法，通过将多机器人建图问题转化为二分图匹配，并使用多通道图神经网络来简化亲和矩阵的填充过程，同时通过增强学习来优化线性分配层，该算法能够在较短时间内完成完整的地图构建，同时在各种室内场景和未见过的机器人数量上获得卓越的性能和通用性。

Mar, 2022

基于图注意力机制的多无人机辅助通信中轨迹规划和资源分配的强化学习

该论文提出了一种新的图注意多智能体信任域（GA-MATR）强化学习框架，用于解决多无人机辅助通信问题，通过引入图递归网络处理和分析通信网络的复杂拓扑结构，从观测信息中提取有用的信息和模式，提供额外的权重，并利用批评网络准确评估无人机基站行为的价值，以实现更可靠的反馈信号，并帮助演员网络更有效地更新策略。模拟实验表明，该方法具有优于基准线的收敛性能，无人机基站学习到了达到最大累积奖励的最佳通信策略，同时，多智能体信任域方法具有单调收敛性，为多无人机辅助通信马尔可夫博弈提供了估计的纳什均衡点。

Jan, 2024

在线二分匹配的深度策略：一种强化学习方法

本文提出了一个端到端的强化学习框架，基于历史数据的试错，通过设置神经网络架构和设计特征表示，对在线匹配问题进行更好的匹配决策。在两个在线匹配问题中，我们的模型表现得比传统算法更好，提高了匹配质量约 3-10％，代码可在给出的 URL 中公开获得。

Sep, 2021

基于深度强化学习的几何问题求解中引入图注意机制

在在线教育领域，设计一个几何问题的自动求解器被认为是通往普适数学人工智能的关键一步。本研究提出了一种基于深度强化学习框架的图形注意力机制和 BERT 等语言模型的算法 A3C-RL，通过在特定空间中选择最佳策略，显著提高了准确性和效率，并在中国高考几何问题上超越了人类的表现。

Mar, 2024

在图上学习组合优化算法

本文介绍了结合强化学习和图嵌入的方法，使用元算法来解决 NP-hard 组合优化问题和图上的最小点集覆盖、最大割和旅行商问题等优化问题。

Apr, 2017

面向多机器人主动信息获取的图神经网络

本文提出了一种基于信息感知的图块网络 (I-GBNet)，通过模仿学习和集中采样的专家求解器来训练，可以实现在一个由机器人组成的移动团队中定位和跟踪动态目标的应用。

Sep, 2022

多智体元梯度强化学习中的自适应激励设计

本文研究了在应用人工智能并应用于共享环境中，设计机构机制以体现社会福利的重要性。我们提出了一种基于元梯度方法的自适应激励设计算法，该算法通过在线交叉验证原则显式考虑其对代理学习的影响，并通过它们对未来社会福利的影响进行优化系统目标

Dec, 2021

基于图的强化学习与混合整数规划相遇：一个应用于 3D 机器人组装发现的案例

该研究使用模块化建筑块和机器人操作器解决了机器人装配发现的挑战性问题，并通过全局优化和强化学习等策略提高了性能和鲁棒性。

Mar, 2022

可学习的图匹配：将图分割与深度特征学习结合用于多目标跟踪

本文提出一种新的学习可伸缩图匹配方法，用于解决目前多目标跟踪（MOT）任务中的数据关联问题，该方法可以使跟踪器在面对严重遮挡等困难情况时表现更加优异，同时在多项标准 MOT 数据集上取得了最先进的性能。

Mar, 2021