利用信念地图辅助训练的多智能体合作游戏

Jun, 2024

利用信念地图辅助训练的多智能体合作游戏

Multi-agent Cooperative Games Using Belief Map Assisted Training

Qinwei Huang, Chen Luo, Alex B. Wu, Simon Khan, Hai Li...

TL;DR多智能体系统中，使用消息传递系统共享本地观察以获得全局情境感知，进而影响智能体间协作的有效性。本文提出 Belief-map Assisted Multi-agent System (BAMS)，利用神经符号信念映射来增强训练，通过简单的符号表示实现从反馈到学习的额外通道。与强化学习中来自奖励的间歇性和延迟反馈相比，信念映射提供更一致可靠的反馈，BAMS 模型在合作狩猎游戏中表现更好。实验结果显示，BAMS 减少了 66% 的训练周期，使用 BAMS 的智能体平均少完成了 34.62% 的步骤。

Abstract

In a multi-agent system, agents share their local observations to gain global situational awareness for decision making and collaboration using a message passing system. When to send a message, how to encode a message, and how to leverage the received messages directly affect the effec

multi-agent system message passing reinforcement learning belief-map assisted multi-agent system cooperative game

发现论文，激发创造

可伸缩的多智能体模型基强化学习

本文提出了一种名为 MAMBA 的新方法，通过利用基于模型的强化学习（MBRL）进一步利用合作环境中的集中式训练，从而使代理之间的通信足以在执行阶段维持每个代理的世界模型，而虚拟推演可用于培训，从而通过减少与环境的互动次数，以与 Model-Free 的现有方法相比，在 SMAC 和 Flatland 的具有挑战性的领域中实现良好的性能。

May, 2022

合作人工智能的广义信念

本研究提出了一种基于信念空间的策略学习模型，可以在测试时间解码和适应新颖的规约，从而显著提高各种策略池中的特定反应的搜索和训练，同时增强智能体规约的可解释性和可解释性。

Jun, 2022

基于事实的多智能体强化学习代理建模

在多智能体系统中，代理需要在环境中与其他代理进行交互和协作。使用基于事实的代理建模（FAM）方法，该论文提出了一种方法，通过基于局部信息的事实基准推理网络（FBI）对部分可观察环境中的其他代理进行建模，以实现对未知情景下的代理建模和多智能体强化学习任务中的自适应合作策略。实验结果表明，相比基线方法，FAM 可以有效提高代理策略学习的效率，并在复杂的竞争 - 合作混合情景中获得更高的回报。

Oct, 2023

利用认知和机器模型在协作多智能体系统中学习

基于平衡学习理论和深度强化学习技术，我们提出了三种多智能体实例基学习（MAIBL）模型，用于协调在随机环境下的多智能体系统。通过在动态环境中展示瞬间学习能力和协调技巧，我们证明 MAIBL 模型相对于现有的多智能体深度强化学习模型更快地学习和实现更好的协调。我们还讨论了将认知洞察力整合到多智能体深度强化学习模型中的好处。

Aug, 2023

融合前瞻性和想象力：基于模型的协作多智能体强化学习

本文提出了一种隐式的基于模型的多智能体强化学习方法，基于价值分解方法，能够提高在不同部分可观察的马尔可夫决策过程领域中的样本效率。

Apr, 2022

在 ABM 中学习复杂的空间行为：一个实验观察研究

本文介绍了一种利用深度强化学习方法，如 PPO 算法，基于智能代理模型实现的智能自适应行为仿真方法。通过捕捉和模拟代理模型中的隐藏，躲避和觅食等行为，探索并展示了深度强化学习方法在智能自适应行为建模中的应用研究。

Jan, 2022

基于对比学习的深度强化学习中的代理建模

多代理系统中，对智能机器代理进行适应性策略设计时，代理建模是至关重要的，通过代理建模可以理解其他代理的行为并提取有意义的策略表示，为增强自我代理的适应性策略提供帮助。这篇研究以对比学习为基础的代理建模方法（CLAM）只依赖于自我代理在训练和执行过程中的局部观察，可以实时生成一致且高质量的策略表示，且在合作和竞争多代理环境中取得了最先进的结果，突显了对比学习为基础的代理建模在增强式学习中的潜力。

Dec, 2023

多智能体强化学习学习和校准异质有界理性市场行为

在代理基模型中，我们提出了一种用于在多代理强化学习框架下表示异构处理受限代理的新技术，通过共享策略学习以及代理技能水平的分布，实现了从严格效用最大化到有界理性行为的过渡，并通过使用策略梯度来学习行为，通过在多个实例中验证，我们证明了该模型在许多常见的代理设置下具有显著改进的预测能力。

Feb, 2024

强化学习代理设计与优化及带宽分配模型

研究了基于强化学习的资源分配问题，结合了 BAM 模型以优化强化学习代理的设计和效率，分析模拟结果表明模型在减轻强化学习代理负担和优化执行方面具有很大潜力。

Nov, 2022

利用贝叶斯强化学习辅助导航以避免盲点中的人群

本研究介绍了一种新的算法 BNBRL+，基于部分可观测的马尔科夫决策过程框架评估不可见区域的风险，并在不确定性下制定移动策略，通过将信念算法与贝叶斯神经网络相结合，根据人类的定位数据以概率推断信念，进一步整合机器人、人类和推断信念之间的动力学，确定导航路径并将社交规范嵌入奖励函数中，从而促进了社会感知导航。通过在各种风险环境中进行实验，验证了 BNBRL + 在导航拥挤环境中具有盲区时的有效性。模型在能见度受限的空间中有效导航并动态避开障碍物的能力可以显著提高自动驾驶车辆的安全性和可靠性。

Mar, 2024