从零开始的非正式外交

Oct, 2021

No-Press Diplomacy from Scratch

Anton Bakhtin, David Wu, Adam Lerer, Noam Brown

TL;DR本文介绍了一种在组合动作空间游戏中进行动作探索和平衡逼近的算法，该算法同时执行价值迭代和学习策略建议网络。我们使用这个算法，训练了一种名为 DORA 的代理，完全从零开始，它在人类玩家之上展现了超人类的表现，这是对 “Diplomacy” 中多个均衡的首个强有力的证据，表明单靠自我对战可能不足以达到超人类水平。

Abstract

Prior AI successes in complex games have largely focused on settings with at most hundreds of actions at each decision point. In contrast, diplomacy is a game with more than 10^20 possible actions per turn. Previous attempts to address games with large branching factors, such as

diplomacy combinatorial action spaces equilibrium search procedure agent superhuman performance

发现论文，激发创造

通过平衡搜索实现无新闻发布外交的人类水平表现

本文讲述了在 Diplomacy 中使用监督学习和一步向前搜索与后悔最小化的策略相结合的方式来构建代理。这个代理胜过以往的 Diplomacy 机器人，性能达到了人类顶尖水平，并且在合作和竞争中都表现出色。

Oct, 2020

最优策略迭代学习无压力外交

本文介绍了使用强化学习、策略迭代方法和博弈论等技术，以应对多智能体交互问题，从而在 7 人博弈 Diplomacy 中实现了前所未有的胜率提升，并取得与博弈论理论预测相一致的结果。

Jun, 2020

无新闻外交：多代理人游戏建模

该研究使用专家轨迹训练了一个基于神经网络的无语版外交政策模型，然后使用强化学习代理在自我对弈过程中进行了训练，两种代理表现均超过了基于规则的机器人。

Sep, 2019

通过人类规范化强化学习和规划掌握非宣传外交游戏

通过引入规划算法 DiL-piKL，将以人类学习策略为导向的策略规则化，弥补了仅靠自我对弈训练出的强化学习算法在协作游戏中的不足。通过 RL-DiL-piKL，训练出一名名为 Diplodocus 的与人类玩家进行博弈的 AI 代理，其在 62 名人类选手参赛的 200 场比赛中排名第一和第三。

Oct, 2022

迈向对称多人游戏的有原则的超越人类水平 AI

多人游戏的独特挑战在于均衡策略的非唯一性和代理人执行高度次优策略的风险。本文首次解决了多人对称标准形式游戏中的这些挑战，给出了 AI 代理人应该找到的正确解决方案以及能够证明解决该类游戏的通用算法框架。我们还证明了许多先前实用系统中开发的元算法甚至无法实现基本目标，即获得代理人的总奖励的平等份额。

Jun, 2024

深度确定性策略的情节式探索：星际争霸微观管理任务应用

本研究以即时战略游戏 StarCraft 为基础，通过使用深度神经网络控制器及启发式强化学习算法来解决些许的问题，同时展现此算法适用于将士兵实时控制过程转化为强化学习问题，获得了良好效果。

Sep, 2016

福利外交：语言模型合作的基准

通过引入一种称为 “福利外交” 的博弈规则，该研究旨在提供评估和加强合作能力的机会，以帮助研究人员发展和评估多智能体 AI 系统，并为全面社会安全做出贡献。

Oct, 2023

使用深度强化学习玩完整的 MOBA 游戏

提出了一种 MOBA 游戏 AI 学习范式，采用深度强化学习及新型学习技术，可训练玩家池多的游戏并解决了可扩展性问题，测试结果表明该 AI 在王者荣耀等游戏中已能击败顶尖电竞选手。

Nov, 2020

公正博弈：强化学习的挑战

本文介绍了 AlphaZero 和 MuZero 的算法，探究了它们的局限性，并提供了新的瓶颈测试方法以解决 AlphaZero 在某些博弈游戏中学习能力不足的问题，并发现 AlphaZero 在解决 nim 游戏时会面临严重的问题。

May, 2022

多人零和游戏中解决联盟困境的学习

本研究通过对称的零和矩阵游戏，证明了联盟形成可以被看作是一个社会困境，并且实证表明，在多代理强化学习中，天真的方法往往失败。同时，我们引入了点对点的合约机制来发现和执行联盟。最后，我们将我们的代理模型推广到了包括时间延伸合约的情况，并提出了进一步研究的机会。

Feb, 2020