游戏中的递归联合模拟
在不确定的环境中,对于合作行为的协调最有效的方式是通过相互理解并达成共识。我们提出了一种精确的算法来计算在不确定环境下合理协调所需的无限递归分级信念,并引入了一种新的多智能体协调机制。我们测试了该机制作为人的决策模型的效果,并发现这种方式可以提高人-智能体的协同效率。
Feb, 2016
本论文提出了一种基于递归推理与变分Bayes方法的多智体强化学习框架,该框架可以用于建模智体对手的行为,提高智体的自我决策能力以及使其在博弈中达成Nash均衡。实验证明,关于智体对手信念的推理,是智体强化学习中一个重要的方向。
Jan, 2019
本文提出了两种搜索技术,分别是单智能体搜索和多智能体共同知识搜索,在合作部分可观察游戏中应用,以提升合作智能体的性能。在Hanabi基准挑战问题中,两种技术均能大幅提高每个测试智能体的性能,并对使用RL训练的策略产生了新的最先进得分24.61/25。
Dec, 2019
该研究基于连续时间技术提出了一个理论模型,旨在研究适应性学习算法之间的策略互动。通过揭示算法之间的自发耦合机制,该研究证明了人工智能算法之间存在的勾结现象,并提出了一种足以消除算法间自发耦合的充分条件,以及设计学习鲁棒性策略的机制所必要的回馈机制。
Feb, 2022
本文提出了一种新的层次化基于网络的游戏论效用树(GUT)模型,将高级策略分解成可执行的低级动作以协同 MAS 决策。该模型结合了基于代理需求的新的支付措施,可帮助协同决策,其在实时策略游戏领域取得了良好的表现,同时使用机器人实验室验证了其在真实机器人应用中的有效性,可有效组织 MAS 合作策略,帮助群体获得更高性能。
Mar, 2023
通过采用博弈论和图论等技术,本文提出了COLE框架,用于解决协作不匹配问题,并在在线Overcooked人工智能实验平台中验证其有效性,结果表明其优于现有方法。
Jun, 2023
在信息不对称的情况下,开发能够制定策略并与人类合作的自主代理人是具有挑战性的,需要有效的自然语言交流。我们引入了一个共享控制游戏,两个玩家轮流共同控制一个令牌,以在不完整信息下实现共同目标。我们对一个自主代理人在此游戏中与另一位玩家(人类)的政策综合问题进行了数学建模。为了解决这个问题,我们提出了一种基于通信的方法,包括一个语言模块和一个规划模块。语言模块将自然语言消息与定义玩家意图的有限标志集之间进行翻译。规划模块利用这些标志,使用我们提出的基于不对称信息集的蒙特卡洛树搜索与标志交换算法计算策略。我们使用《夜间侏儒》作为基础的测试场景进行了这种方法的有效性评估,该场景是一个搜索和找到迷宫棋盘游戏。人类主体实验的结果表明,通过交流,玩家之间的信息鸿沟变小,合作效率提高,并减少回合数。
May, 2024