- 用深度强化学习实现多机器人社交导航的注意力图
通过结合感知、规划和预测,本研究提出了一种基于深度强化学习的多智能体社会感知导航策略方法,使用基于图的实体交互表示,并利用图神经网络和注意机制进行建模。实验证明,该方法在多个异构人群的复杂环境中能比社交导航深度强化学习单智能体技术更快地学习 - 多智能体决策的屏蔽预训练
提出了一种基于 Transformer 架构的 MaskMA 预训练框架,通过分布式执行和部分观察的方式,同时解决了多智能体决策中分布式预训练和执行不匹配以及智能体数量和行动空间多样性的问题,实验结果显示 MaskMA 在多个任务上都表现出 - 来自真实多智能体演示的强化学习中的自适应动作监督
本文提出了一种自适应动作监督的 RL 方法,通过动态时间规整的最小距离选择 RL 真实世界演示中的动作,使得 RL 模型能够在网络空间获得回报
- CVPRFJMP: 基于学习有向无环交互图的分解联合多智能体运动预测
本文提出了一种用于自动驾驶中多智能体交互驾驶情景下预测未来场景级联联轨迹的方法,并称之为 FJMP。FJMP 将未来场景交互动力学建模为稀疏有向交互图,对联合预测任务进行分解并使用有向无环神经网络进行预测。实验表明 FJMP 在交互最多和动 - IJCAI带惩罚项的近端优化安全强化学习
本论文提出惩罚近端策略优化 (P3O) 算法,通过一个等效的无约束问题的单次极小化来解决繁琐的受约束策略迭代,同时可以扩展至多约束和多智能体场景,实验表明该算法在一组有约束的机车任务上具有先进性能。
- 使用因子图为基础的表格强化学习中学习多智能体选项
本文提出了一种基于 Kronecker 图的多智能体协同探索的选项发现方法,通过鼓励智能体连接相应的最小或最大 Fiedler 向量,构建多智能体共同目标状态,从而在多智能体任务中实现更快的探索和更高的累积奖励。
- 观测中的意外事件处理:利用学习到的行为模型进行可操作的意外事件规划
本论文提出了一种使用高维场景观察和低维行为观察来学习端到端的泛用性应急计划器的方法,并使用多智能体场景下的逼真飙车模拟实验验证了它的有效性。
- AAAI未知环境映射的异构多智能体强化学习
本文提出了一种基于 actor-critic 算法的多智能体学习方法,可以让一组异构代理学习无人机覆盖未知环境的分散控制策略,此方法可被应用于国家安全和紧急响应组织中以提高在危险区域中的情境感知能力。
- ICML多智能体对抗逆强化学习
本文提出了一种新的多智能体逆强化学习框架(MA-AIRL),有效地解决了高维空间和未知动态的马尔科夫博弈问题,并展示了在策略模仿方面,MA-AIRL 显著优于现有方法。
- ICML多智能体强化学习的演员 - 注意力 - 评论家模型
提出了一个基于 Actor-Critic 算法的多智能体强化学习算法,解决了多智能体场景下的信息筛选问题,可应用于大多数多智能体学习问题。
- 大规模多智能体系统的分解 Q 学习
本文针对多智能体场景下动态和智能体之间的复杂性引起的动作空间爆炸问题,提出将 Q 函数近似为分解成对交互的高阶高维张量,并利用复合深度神经网络实现计算,借此简化模型,加快学习过程,通过在多个场景上的实验得出,该方法表现良好。
- 群体系统的深度强化学习
提出了一种基于分布的平均嵌入(mean embeddings)状态表示法,适用于具有大量同质代理的群集系统;在深度多智能体强化学习中利用神经网络方式实现的平均嵌入表示法可实现最丰富的邻近智能体信息交换,促进更复杂的集体策略的发展。