- 多智能体系统中的合作动力学:探索均场平衡下的博弈论场景
调查在博弈论情境中激发合作的策略,分析现有的合作策略对重复游戏中促进群体行为的有效性,并在具有指数增长代理人群体的情境中建立均衡解和奖励结构。通过模拟实现将理论概念与实际应用相结合。
- 意图感知自动驾驶:高速公路并线场景案例研究
利用意图传递作为一种促进自动驾驶车辆之间合作的手段,在高速公路环境模拟器中实现了一种意图共享任务,研究了如何通过意图传递帮助接收车辆在高速公路合并场景中调整行为。
- 通过细粒度模态估值增强多模态合作
多模态学习模型的主题之一是将来自不同模态的异构信息进行联合整合,然而,大多数模型在多模态协同方面存在不足,不能很好地利用所有模态信息,因此,合理观察和改进模态之间的细粒度协同至关重要,特别是在面对现实场景时,模态差异可能在不同样本间有所变化 - AgentVerse:促进多智能体协作并探索智能体的 emergent behaviors
基于大型语言模型的自主代理人在任务的广泛范围内实现了显著的改进。为了提高任务完成的效率和效果,我们提出了一个多代理人框架,并通过实验证明该框架能够有效地部署优于单个代理人的多代理人群体。在协同任务完成过程中,我们深入研究了群体中个体代理人之 - SACHA: 基于启发式注意力的软演员评论家方法用于部分可观测的多智能体路径规划
我们提出了一种多智能体演员 - 评论员方法(Soft Actor-Critic with Heuristic-Based Attention,SACHA),通过在演员和评论员中采用新颖的基于启发式的注意机制,鼓励智能体之间的合作,从而解决了 - 歧视性或撒玛利亚人 —— 哪种人工智能对人类更有价值?混合人工智能人口的进化博弈理论分析
通过进化博弈理论的方法,研究发现无条件帮助所有人的 AI 智能体可以促进人类的合作水平,在缓慢发展的社会中,它可以比只帮助被认为值得合作的人群的歧视性 AI 更有效地促进合作。在快速发展的社会中,歧视性 AI 比 “撒玛利亚人” 智能体更能 - 介导的多智能体强化学习
研究了如何通过引入内部和外部协调措施,实现智能体之间在环境中的合作,其中提出了中介者模型作为实现协调的一种方法。
- 面向多智能体系统的合一理性模型
本研究提出了一种通用模型,旨在设计具有社交智能的个体理性学习者的 AI,以实现其与其他类型的代理人的有效合作。该研究重点讨论了合理性、后悔和泛饱和效率对于实现社交智能的影响,并探讨了构建稳健的系统的重要性。
- 使用大型语言模型进行反复游戏
使用行为博弈理论研究大型语言模型行为,结果显示它们在自我利益方面的表现非常出色,但在协调方面表现不佳,尤其表现出一些行为特征。
- 利用实验经济学研究大型语言模型中出现的类目标行为
通过实验,本研究发现大型语言模型能够在一定程度上将自然语言描述的利他主义和自私行为转化为适当的行为,但在适应有条件回报的情况下存在局限性,特别是在社会困境的一般人类行为模式方面存在潜在限制。研究呼吁进一步探讨大型语言模型生成的代理在更广泛的 - 基于人格混合的脉冲神经元演员网络,用于高效多智能体协作
研究多智体强化学习中的人机智能协作和多智体协作,提出一种混合个性模型改进的尖峰演员网络,以在合作场景下实现高性能表现,并说明了该算法的有效性和深度神经网络在合作测试中表现差的原因。
- 从显式通信到默示合作:一种新的协作多智能体强化学习范式
该研究提出了一种新的训练方法,该方法在训练初期通过共享信息和重构信息来促进智能体之间的合作,随着训练的进行,逐渐过渡到完全去中心化的执行模式,实验结果表明该方法的性能不逊于基于传统通信的方法。
- Stubborn: 一种用于评估具有相似激励的代理之间顽固性的环境
本文主要介绍了一种基于多智能体强化学习 (MARL) 的环境 Stubborn,用于研究完全合作环境下代理之间的固执程度对社会动态的影响,并探究如何通过这种固执行为来提高环境中代理的智能行为选择。
- SocialLight:面向网络范围交通信号控制的分布式协作学习
提出了一种名为 SocialLight 的基于多智能体强化学习和分布式学习的交通信号控制方法,通过估计个体对本地邻域的边际贡献来学习交通控制策略,解决了传统方法中合作性不足和无法扩展等问题,并经过在两个交通模拟器上的标准基准测试,结果表明 - 多智能体强化学习中的离线动作预测
该研究提出了一种新的基于动作预测的学习预期方法 OffPA2,旨在解决现有基于策略参数预测的 Higher-Order Gradients 方法在不可微分游戏和大状态空间下效率低下的问题,并通过一系列实验证明,该方法在效率和性能上均优于现有 - 多智能体导航中学习图增强的指挥者 - 执行者模型
本文介绍了一种基于图神经网络的多智能体导航任务的目标条件层次方法,名为 MAGE-X,该方法由高级目标指挥官和低级行动执行器组成,并通过使用关键合作者构建子图来提高合作。结果显示,MAGE-X 在多智能体颗粒环境(MPE)和更复杂的四旋翼 - ICLR假设人类有偏见,学习与人类的零射合作
本研究针对多智能体强化学习在与人合作零 - shot 学习过程中的十分关键的限制,并提出了一种更通用的 Hidden-Utility Self-Play (HSP) 方法,该方法显式地模拟人类的偏好作为自我博弈的隐藏奖励函数。通过评估 Ov - 探究直接惩罚在多智能体强化学习系统中对合作出现的影响
本文对多智能体强化学习系统中直接惩罚形式的合作行为和学习动态进行了全面分析,并比较了第三方惩罚与直接惩罚的差异性,讨论这些机制在合作人工智能系统设计中的应用意义。
- 通过交易奖励份额学习参与
通过股票市场启发式方法,让自主智能体通过获得奖励份额参与其他智能体的回报,从而促进解决社交困境中自主智能体之间的合作。经过测试得出,这种机制在独立训练的自主智能体之间促进了合作,在时间和空间延伸的领域中,有助于角色的发展和子任务的划分。
- 设计混合专家作为模块化多任务学习者
该研究提出了 Mod-Squad 模型,使用模块化结构将组内的专家与任务相匹配,并在训练过程中优化匹配过程以对抗多任务学习的挑战。实验表明本方法在任务数量和训练集规模扩大时表现强于其他方法。