在合作与拜占庭式分散团队中使用互信息进行迭代推理
本文提出了基于信息论的速率畸变理论框架,它使得我们能够分析完全分散的政策能够重构最优解的程度,同时,该框架提供了自然的扩展解决了一个代理应该与哪些节点通信以提高其个体策略的性能的问题。
Jul, 2017
本文研究了网络多智能体强化学习(MARL)问题,提出了一种分层分散式MarL框架:LToS,它使代理者能够动态地与邻居共享奖励,从而通过集体鼓励代理者在全局目标上进行合作。实证结果表明LToS在社会困境和网络MARL的情景下都优于现有方法。
Dec, 2021
该论文研究了协作多智能体强化学习中的集中式训练和策略共享,提出了一种基于一致性的去中心化演员-评论家方法,以减少通信成本并保证收敛,从而有效地降低了训练时的通信成本。
Feb, 2022
该论文研究了多智能体强化学习在时序马尔科夫决策过程的情景下的应用,提出了一种基于价值迭代的算法,实现异步通信并保证协作的优势,证明了,当使用线性函数逼近时,该算法的遗憾值可达到 $\tilde{\mathcal{O}}(d^{3/2}H^2\sqrt{K})$,且通信复杂度为 $\tilde{\mathcal{O}}(dHM^2)$。
May, 2023
Coordinated QMIX (CoMIX) is a training framework for decentralized agents that enables emergent coordination through flexible policies, improving coordination in multi-agent systems.
Aug, 2023
多代理强化学习中的中央化训练与分散执行框架存在全局状态引导和地方观测依赖的差距。通过引入基于分层一致性的多智能体强化学习框架,采用对比学习来促进智能体之间的全局一致性,从而实现协同行为而无需直接通信。该框架允许智能体从地方观测中形成全局一致性,并在执行期间将其作为额外信息来指导协同行动,通过多层次的一致性满足各种任务的动态需求。采用自适应注意机制调整每个一致性层的影响,优化即时反应和战略规划之间的平衡,以适应特定任务的要求。通过大量实验和在多机器人系统中的实际应用,展示了我们框架相对于基准的卓越性能,取得了显著的进展。
Jul, 2024
本文研究了在自利的独立学习体之间实现合作的挑战,并提出了一种首个无偏高阶无梯度的策略梯度算法,专注于学习感知的强化学习。通过利用高效的序列模型,我们的算法能够在包含其他智能体学习动态的长观测历史上调节行为,从而在标准社交困境中实现合作行为和高回报。
Oct, 2024
本研究解决了多智能体系统中通信框架的静态特性及其信息共享的低效问题。我们提出了一种新颖的方法,将通信架构视为可学习的图,从而通过双层优化过程动态调整通信图和架构参数。实验表明,我们的模型在多种合作任务中表现出色,显著提高了智能体的决策效率和协作能力。
Nov, 2024