- CoDreamer:基于通信的分散式世界模型
在强化学习中,样本效率是一个关键挑战。本研究引入了 CoDreamer,这是 Dreamer 算法在多智能体环境中的扩展,利用图神经网络构建了一个双层通信系统来解决部分可观测性和智能体合作等问题。我们证明了 CoDreamer 比使用 Dr - STRIDE:面向战略和互动决策的辅助工具 LLM 代理框架
本文针对目前语言模型在战略多代理决策环境中存在的局限性,提出了一种新颖的语言模型代理框架,通过加入记忆和专门设计的工具,提升了其战略决策能力。通过在多个重要经济环境中的应用,特别是双边协商和多代理动态机制设计,我们使用定量指标评估了该框架在 - 面对环境不确定性的高样本效率鲁棒多智能体强化学习
为了解决强化学习中的模拟到实际之间的差距,学习策略必须对环境不确定性保持鲁棒性。本研究着重于多智能体环境中学习分布鲁棒马尔可夫博弈,提出基于模型的 DRNVI 算法来学习各种博弈论平衡的鲁棒变种,同时建立了信息论下界以确认 DRNVI 的近 - 多智能体学习系统的数学:博弈论与人工智能交叉界面
进化博弈论和人工智能两个领域虽然乍看起来不同,但它们具有显著的联系和交叉点。本文旨在通过交叉思想促进多智能体学习系统的数学进展,特别是在 “集体合作智能” 领域,以连接进化动力学和多智能体强化学习。
- 学习代理人异质群体中的道德行为动力学
通过在多智能体环境中使用强化学习,研究了道德异质群体对个体智能体学习行为和整体行为的影响,发现某些类型的道德智能体能够引导自私的智能体更倾向于合作行为。
- Agent Smith: 一张图片能以指数速度越狱一百万多模态 LLM 智能体
本文研究了多模式大型语言模型的安全问题,其中包括对抗图像和提示的风险以及在多智能体环境中存在的传染性越狱问题,研究结果展示了传染性越狱的可行性,并探讨了如何设计有效的防御机制。
- SSL - 交互:交互轨迹预测的前置任务
本文研究了在多智能体环境中的动作预测问题,提出了一种名为 SSL-Interactions 的方法,通过预先任务增强了交互建模以进行轨迹预测。该方法引入了四种考虑智能体交互的预先任务,并通过构建交互密集场景的数据集来提高交互模型的学习性能。 - CVPRStarCraftImage: 用于多智能体环境空间推理方法原型设计的数据集
基于 StarCraft II 游戏重播构建了一个空间推理基准数据集,用于在多智能体环境中原型设计和测试推理方法。
- MAgIC: 大型语言模型驱动的多智能体在认知、适应性、合理性和协作方面的基准测试
这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架,通过游戏和博弈论场景来创建不同的测试环境,并利用概率图模型方法增强模型的导航能力,最终量化评估了七种不同大型语言模型的能力,发现最强模型 GPT-4 和最弱模型 L - 多样性即实力:通过互动式多智能体强化学习掌握足球全场比赛
本研究提出了「多样性即实力(DIS)」深度强化学习训练框架,该框架可以同时训练多种类型的人工智能,以增强其能力和策略多样性,并通过模型评估和筛选方案选择最佳模型以丰富模型池并获得最终的人工智能。该方法通过在 Google Research - IMAP: 内在动机驱动的对抗策略
提出了一种名为 Intrinsically Motivated Adversarial Policy(简称 IMAP) 的策略,用于在无需了解受害者策略的情况下,有效地进行黑盒攻击,IMAP 利用基于状态覆盖、策略覆盖、风险和策略差异的四个 - ICLRMAESTRO: 多智能体强化学习的开放环境设计
本文提出了 Multi-Agent Environment Design Strategist for Open-Ended Learning (MAESTRO) 算法,该算法在多智能体环境中使用 Unsupervised Environm - 博弈论目标空间规划
本文通过提出基于游戏理论规划者的智能车辆监管方案,并结合后悔最小化技术,用以优化智能车辆的胜率,实现多智能体环境下的自主行驶。
- 自动设计有趣的多智能体环境
通过提供内在的奖励机制,增加多智能体环境中 RL 学习的效率,我们在多智能体 Hide and Seek 和单智能体迷宫任务中,考察了一系列根据预测问题构建的内在老师奖励,并发现其中价值不一致是最为稳健和高效的奖励方式。
- DESTRESS:计算最优和通信高效的分散非凸有限和优化
本文研究非凸有限和优化中的去中心化算法,通过局部损失函数的累加最小化来匹配中心化算法的一阶马鞍点,并提供 DEcentralized STochastic REcurSive gradient methodS(DESTRESS)的算法来实现 - PettingZoo: 多智能体强化学习的 Gym
介绍 PettingZoo 动物园库及附带的代理环境循环(“AEC”)游戏模型,PettingZoo 是多样的多代理环境的库,有一个通用的 Python API,用于加速多智能体强化学习(“MARL”)研究。
- 部分观测下的代理建模用于深度强化学习
为了消除现有的管理机构建模中对受控代理的局部信息和选择动作的假设,该研究使用编码器 - 解码器结构从受控代理的局部信息中提取表示,并在训练期间使用管理代理的观察和动作来学习提取关于管理代理的表示,从而增强了管理代理的决策策略。提供了对合作、 - ICMLFormulaZero:通过离线人口合成实现分布式鲁棒在线适应
本文针对多智能体环境下自主驾驶车辆行驶安全和效率平衡问题,提出了以自我博弈为基础的对抗生成网络和分布式鲁棒型优化方法,实验结果显示我们的方法能够在自主驾驶赛车中取得较好的性能和鲁棒性。
- ICCV通过自我博弈学习多智能体协商
这篇论文通过深度强化学习中的自我对战迭代程序展示了如何创建越来越多样化的交通场景并学习多智能体协作策略提高合并操作成功率。
- AAAI多智能体环境决策解释的人工智能
介绍了在多智能体环境下,通过提供解释来增加用户满意度的重要性,提出了一个新的研究方向 xMASE,并回顾了现有的技术水平和为提高用户满意度而生成解释的算法。