使用反向传播算法学习多智能体通信
本文提出了 Individualized Controlled Continuous Communication Model (IC3Net),在多智能体协作、半协作与竞争环境下,通过门控机制控制持续传输,并使用个性化奖励来提高性能和可扩展性,修正学分分配问题。实验结果证实,IC3Net 网络比基准网络在不同场景下具有更好的训练效率和收敛率,智能体基于场景和可盈利性学会如何传输信息。
Dec, 2018
通过引入 CommFormer,将多个智能 Agent 之间的通讯架构视为可学习的图形,采用连续松弛和关注机制的方式,在协作任务上优化通讯图并通过梯度下降同时完善架构参数,证实了模型在不同合作场景下,无论 Agent 数量的变化,都能协调更好且更复杂的策略。
May, 2024
该研究提出了一种基于图卷积和多因素策略梯度的架构,用于解决在多观察环境下多智能体之间合作最大化系统功用时的通信和奖励分配问题,并在一系列任务中取得了优异表现。
Apr, 2020
本文提出了一个基于深度确定性策略梯度的多智能体训练框架,利用存储设备并发端到端学习明确的通信协议,来提高小规模系统中智能体的协作和性能,同时研究了不同通信模式对性能的影响。
Jan, 2019
本文提出了一种新的模型和训练算法,在以原始像素为输入的环境中,利用学习到的表征空间的结构产生更一致的发言者,稳定学习,并提出了一种用于度量文本独立性的新型基于对齐的指标,相比策略梯度和其他竞争基线,我们的算法在通信效果方面有了大幅提升。
Sep, 2018
本论文研究了一组学习代理在协作对等网络中,每个代理根据自己的学习目标学习个性化模型。本文介绍和分析了两种异步流言算法,以完全分散的方式运行。我们的第一种方法旨在在网络上平滑预训练的本地模型,同时考虑每个代理在其初始模型中的置信度。在我们的第二种方法中,代理共同学习和传播其模型,基于其本地数据集和邻居的行为进行迭代更新,为了优化这一具有挑战性的目标,我们的分散算法是基于 ADMM。
Oct, 2016
本研究基于深度神经网络,提出两种学习策略(RIAL 和 DIAL),探究在多智能体感知与互动的环境下,通过学习通信协议最大化共享效益的问题。研究表明通过这种中心化学习、分散式执行的方法能够在通信难题和多智能体计算机视觉问题领域中实现端到端的协议学习。
May, 2016
本文提出了一种注意力通信模型,能够学习何时需要进行通信以及如何将共享信息集成到合作决策中,以实现大规模多智能体协作的高效和有效通信,从而在合作情境中比现有方法展现出更具协调性和更复杂的策略。
May, 2018
本文提出了一个框架,利用神经消息编码器来学习多智能体强化学习中的通信策略,包括消息传输时机、消息内容以及如何保留消息信息。模拟实际的无线网络环境下,与现有技术相比,该框架在游戏性能、收敛速度和通信效率方面都有显著提高。
Sep, 2022