- 具有不完全信息和完美回忆的 ATL * 的可决定性结果
本研究探讨了 ATL * 在不完全信息环境下(ATL * i)扩展的决策问题,首先证明了 ATL *(具有策略背景和不完全信息)的模型检查是可判定决策的,其次证明了当限制到分层实例时该问题是可判定的。
- ICLR学习马尔可夫势博弈的参数封闭回路策略
针对共享公共资源时的多智能体系统,本文研究马尔可夫潜在博弈,提出了一种基于参数策略的闭环型纳什均衡解法,通过解一个单目标优化问题获得了一个最优策略,应用于实例中的无合作通信博弈,并通过深度强化学习算法学习了一个接近博弈精确变分均衡的策略。
- 使用敌对神经加密学习保护通信
本文探讨神经网络在多智能体系统中,如何通过敌对训练实现加密解密操作,从而保障通信内容的机密性。研究表明神经网络能够学习如何选择性地运用加密和解密操作以实现保密的目标。
- 基于深度强化学习的分散式非通信多智能体避碰
该研究提出了一种基于深度强化学习的分散式多智能体碰撞避免算法,该算法利用价值网络来实现高效(即可实时实施)的查询并考虑其他智能体的运动不确定性,与现有碰撞避免策略相比显示出更高的路径质量改进。
- IJCAI树上其单峰偏好的引导
本研究探讨了对于多代理系统中的单峰树型偏好如何通过尽可能少的询问获取其偏好信息,并且发现查询复杂度与叶子数、路径覆盖数和路径距离等参数密切相关。在此基础上,还探讨了基于单峰树型偏好的弱 Condorcet 赢家查询复杂度相对较低的问题。
- AAAI利用匿名性进行近似线性规划:扩展到大型多智能体 MDPs(扩展版)
本研究提出了一种利用匿名影响的方法以提高多方系统的计算效率,尤其是在面对因交互密度增加而出现指数级价值部件大小增加的情况下,可以使之前无法求解的分解 MDP 的近似线性规划问题得到解决。
- 深度强化学习下的多智能体合作与竞争
本文探讨了如何在多智能体环境下,运用扩展后的 Deep Q-Learning Network,使两个由独立的 Deep Q-Networks 控制的 agents,相互作用以玩经典的电子游戏乒乓球,以及通过改变 Pong 经典奖励方案,演示 - 城市道路交通网络中十字路口管理的市场化方法
该论文提出了一种使用智能交通管理基础设施来管理未来城市道路网络的分布式机制,其中智能自主车辆通过软件代理操作以安全高效地穿过道路网络,并结合竞争性市场所得到的交通分配策略,构建了一个自上而下的管理机制。
- 具有并发相互作用动作的部分序规划
该论文介绍了如何使用 STIRPS 操作表示语言来实现多个执行器的代理计划生成,通过小的修改可以实现交互作用的并发操作,通过开发一个名为 POMP 的部分排序规划器,可以扩展现有的部分排序规划器来进行计划。
- 选票征集:复杂性与策略无关性
本文研究了多智能体系统中最常见的投票协议中的有效引诱及其障碍,其中引诱何时终止是单可转移选票协议下的数学 NP 完全问题,确定如何有效引诱在所有协议下均为 NP 完全问题,并引入了额外的投票策略操纵机会。然而,对于多数协议,诸如选民的完美怀 - 机制设计的复杂度
本研究探讨了在多智能体系统中,通过机制设计实现代理人诚实报告偏好从而选择出(社会)期望结果的问题。我们提出了一种自动创建偏好聚合机制的方法,并发现在无法进行边际支付的情况下,确定性机制的机制设计问题是 NP 完全的,但随机机制则是可计算的。
- 多智体系统学习动态的耦合复制方程
本文探讨了强化学习代理群体的复制者方程,证明基于环境反应的互动,代理们以自私的方式建模自己的环境,从而自然地出现游戏动力学,针对石头剪刀布游戏的应用证明了群体学习动力学具有多种多样的竞争和合作行为,包括准周期性,稳定极限环,间歇性和确定性混