从零开始的非正式外交
本文讲述了在 Diplomacy 中使用监督学习和一步向前搜索与后悔最小化的策略相结合的方式来构建代理。这个代理胜过以往的 Diplomacy 机器人,性能达到了人类顶尖水平,并且在合作和竞争中都表现出色。
Oct, 2020
本文介绍了使用强化学习、策略迭代方法和博弈论等技术,以应对多智能体交互问题,从而在 7 人博弈 Diplomacy 中实现了前所未有的胜率提升,并取得与博弈论理论预测相一致的结果。
Jun, 2020
通过引入规划算法 DiL-piKL,将以人类学习策略为导向的策略规则化,弥补了仅靠自我对弈训练出的强化学习算法在协作游戏中的不足。通过 RL-DiL-piKL,训练出一名名为 Diplodocus 的与人类玩家进行博弈的 AI 代理,其在 62 名人类选手参赛的 200 场比赛中排名第一和第三。
Oct, 2022
多人游戏的独特挑战在于均衡策略的非唯一性和代理人执行高度次优策略的风险。本文首次解决了多人对称标准形式游戏中的这些挑战,给出了 AI 代理人应该找到的正确解决方案以及能够证明解决该类游戏的通用算法框架。我们还证明了许多先前实用系统中开发的元算法甚至无法实现基本目标,即获得代理人的总奖励的平等份额。
Jun, 2024
本研究以即时战略游戏 StarCraft 为基础,通过使用深度神经网络控制器及启发式强化学习算法来解决些许的问题,同时展现此算法适用于将士兵实时控制过程转化为强化学习问题,获得了良好效果。
Sep, 2016
通过引入一种称为 “福利外交” 的博弈规则,该研究旨在提供评估和加强合作能力的机会,以帮助研究人员发展和评估多智能体 AI 系统,并为全面社会安全做出贡献。
Oct, 2023
提出了一种 MOBA 游戏 AI 学习范式,采用深度强化学习及新型学习技术,可训练玩家池多的游戏并解决了可扩展性问题,测试结果表明该 AI 在王者荣耀等游戏中已能击败顶尖电竞选手。
Nov, 2020
本文介绍了 AlphaZero 和 MuZero 的算法,探究了它们的局限性,并提供了新的瓶颈测试方法以解决 AlphaZero 在某些博弈游戏中学习能力不足的问题,并发现 AlphaZero 在解决 nim 游戏时会面临严重的问题。
May, 2022
本研究通过对称的零和矩阵游戏,证明了联盟形成可以被看作是一个社会困境,并且实证表明,在多代理强化学习中,天真的方法往往失败。同时,我们引入了点对点的合约机制来发现和执行联盟。最后,我们将我们的代理模型推广到了包括时间延伸合约的情况,并提出了进一步研究的机会。
Feb, 2020