- 因果游戏中干预行为的特性描述
通过在多智能体场景中回答因果询问的概率图模型,扩展因果贝叶斯网络以表示智能体的自由度和目标,放松可行干预的时间顺序限制,提出一种原始因果干预集合来研究复杂干预查询的影响,并通过考虑因果机制设计与承诺,展示到安全人工智能系统的设计。
- N 代理临时团队合作
在多智能体环境中学习合作行为的现有方法通常假设相对限制性的情景,在完全合作的多智能体强化学习中,学习算法控制着场景中的所有智能体,而在特定团队合作中,学习算法通常只控制场景中的单个智能体。然而,在现实世界中,许多合作场景要求更灵活的学习方法 - LLM 作为主脑:大型语言模型的战略推理综述
本文综述了大规模语言模型(LLMs)在战略推理中的当前状况和机遇,战略推理是一种复杂的推理形式,需要理解和预测多智能体环境中对手行为并相应调整策略。本文探讨了与 LLMs 相关的战略推理的范围、应用、方法论和评估指标,强调了该领域蓬勃发展和 - Mix-ME: 多智能体学习的多样性质量
Mix-ME 是一种基于 MAP-Elites 算法的多智能体变种方法,结合了不同团队的智能体,用混合操作符生成新解,在部分可观察的连续控制任务中,这些通过 Mix-ME 获取的多智能体变种不仅能与单一智能体基线进行竞争,而且在多智能体环境 - ICML以心理理论为基础的多智能体强化学习的内在动机理论
该论文介绍了利用深度网络来模拟人类心智状态,并在多智能体环境中进行信念预测和强化学习的初步实验结果。
- 逻辑约束部分可观测多智能体马尔科夫决策过程的最优控制
本文讲述了一种基于特定约束的自主系统与多智能体的优化控制方法,以实现其最大化收益并同时满足时间逻辑约束的概率足够高。
- 神经收益机器:预测团队成员间公平和稳定的收益分配
本文提出了一种使用神经网络模型来学习协作博弈解决方案,以促进公平合作分配的方法,特别是 Shapley value 在 Explainable AI 中的应用。
- MetaDrive: 通用强化学习中多样性驾驶场景的构建
本文通过开发一个名为 MetaDrive 的驾驶仿真平台来支持机器自我行驶可推广的强化学习算法的研究,并构建了各种单智能体和多智能体的强化学习任务和基准测试,评估了在不同场景下机器的行为以及提出了安全强化学习算法和多智能体强化学习算法的基准 - 深层潜在竞争:使用视觉控制策略在潜在空间学习赛车
该论文介绍了一种名为 Deep Latent Competition(DLC)的强化学习算法,其可以通过自我博弈在想象中学习竞争性视觉控制策略,从而实现长期推理。DLC 代理人在学习的世界模型的紧凑潜在空间中想象多智能体互动序列以减少实际采 - 探索具有体现多智能体的零射击新兴通信
本研究探讨在多智能体环境中,利用关节执行通信的新型通信模式,解决现有符号通信模式不能够解决的一些问题,提出具体的训练改进方案,实现了对新伙伴的协议推广。
- ICML多智体强化学习中的随机实体分解
本文介绍了一种名为 REFIL 的方法,能够在多个具有不同类型和数量的代理和非代理实体的任务中发现共性,从而提高多任务环境下的学习效率,并在挑战性的多任务 StarCraft 微管理环境中显著优于所有强基线。
- 基于影响力的多智能体探索
为了解决探索性任务中的探索难题,本文针对具有转换依赖性的多智能体环境提出了两种探索方法:基于信息论影响的探索(EITI)和基于决策论影响的探索(EDTI),通过利用智能体协作行为中交互作用的作用加以利用。我们通过优化这两种方法来鼓励智能体协 - 最大份额最小化的改进近似算法
该研究研究了在多个代理设置下使用最大最小份额分配公平分配资源的问题,并提出了一种新方法来简化算法并改进其逼近性能。
- 多智能体生成对抗模仿学习
本文提出了一种新的适用于多智能体环境的 Multi-Agent 模仿学习框架,它建立在广义反向强化学习的基础上,并引入了实用的多智能体演员 - 评论家算法。该方法可用于多个合作或竞争代理的高维环境中模仿复杂的行为。
- ICML深度强化学习中的对手建模
本文介绍了一种基于神经网络和任务多项式结构的对手建模方法,该方法能够应用于多智能体环境下的策略自适应,通过对足球和智力竞赛等游戏的模拟实验可知该方法胜于深度 Q 网络及其衍生方法。
- 在线多智能体优化的不需要共识的临近性
本文提出一种基于随机鞍点算法的分布式算法,以解决多智能体环境下的随机优化问题,该算法包括在线共识优化作为特例,并应用于传感器网络中的相关随机场顺序估计问题和在线源定位问题。
- 加性和响应偏好下的有效再分配
在多智能体问题中,通过新的资源配置方式实现互惠互利是一个根本性问题。本文探讨了两种不同偏好关系的情况下,如何以不同的限制条件测试 Pareto 最优性。第一部分着重于代理人对物体的加法计数效用的表达方法,提出了计算复杂性结果和多项式时间算法 - 多智能体场景下的序列规划框架
本研究在部分可观察马尔可夫决策过程 (POMDPs) 的基础上,将代理模型纳入到状态空间中,使其扩展到了多智能体的情景下。代理人通过贝叶斯更新来维护对物理环境状态和其他代理模型的信念,并使用基于置信状态的映射来求得最优方案。虽然我们的方法中