通过平衡搜索实现无新闻发布外交的人类水平表现

Oct, 2020

通过平衡搜索实现无新闻发布外交的人类水平表现

Human-Level Performance in No-Press Diplomacy via Equilibrium Search

Jonathan Gray, Adam Lerer, Anton Bakhtin, Noam Brown

TL;DR本文讲述了在 Diplomacy 中使用监督学习和一步向前搜索与后悔最小化的策略相结合的方式来构建代理。这个代理胜过以往的 Diplomacy 机器人，性能达到了人类顶尖水平，并且在合作和竞争中都表现出色。

Abstract

Prior AI breakthroughs in complex games have focused on either the purely adversarial or purely cooperative settings. In contrast, diplomacy is a game of shifting alliances that involves both cooperation and comp

diplomacy supervised learning regret minimization cooperation performance

发现论文，激发创造

无新闻外交：多代理人游戏建模

该研究使用专家轨迹训练了一个基于神经网络的无语版外交政策模型，然后使用强化学习代理在自我对弈过程中进行了训练，两种代理表现均超过了基于规则的机器人。

Sep, 2019

从零开始的非正式外交

本文介绍了一种在组合动作空间游戏中进行动作探索和平衡逼近的算法，该算法同时执行价值迭代和学习策略建议网络。我们使用这个算法，训练了一种名为 DORA 的代理，完全从零开始，它在人类玩家之上展现了超人类的表现，这是对 “Diplomacy” 中多个均衡的首个强有力的证据，表明单靠自我对战可能不足以达到超人类水平。

Oct, 2021

通过人类规范化强化学习和规划掌握非宣传外交游戏

通过引入规划算法 DiL-piKL，将以人类学习策略为导向的策略规则化，弥补了仅靠自我对弈训练出的强化学习算法在协作游戏中的不足。通过 RL-DiL-piKL，训练出一名名为 Diplodocus 的与人类玩家进行博弈的 AI 代理，其在 62 名人类选手参赛的 200 场比赛中排名第一和第三。

Oct, 2022

最优策略迭代学习无压力外交

本文介绍了使用强化学习、策略迭代方法和博弈论等技术，以应对多智能体交互问题，从而在 7 人博弈 Diplomacy 中实现了前所未有的胜率提升，并取得与博弈论理论预测相一致的结果。

Jun, 2020

福利外交：语言模型合作的基准

通过引入一种称为 “福利外交” 的博弈规则，该研究旨在提供评估和加强合作能力的机会，以帮助研究人员发展和评估多智能体 AI 系统，并为全面社会安全做出贡献。

Oct, 2023

多人零和游戏中解决联盟困境的学习

本研究通过对称的零和矩阵游戏，证明了联盟形成可以被看作是一个社会困境，并且实证表明，在多代理强化学习中，天真的方法往往失败。同时，我们引入了点对点的合约机制来发现和执行联盟。最后，我们将我们的代理模型推广到了包括时间延伸合约的情况，并提出了进一步研究的机会。

Feb, 2020

迈向对称多人游戏的有原则的超越人类水平 AI

多人游戏的独特挑战在于均衡策略的非唯一性和代理人执行高度次优策略的风险。本文首次解决了多人对称标准形式游戏中的这些挑战，给出了 AI 代理人应该找到的正确解决方案以及能够证明解决该类游戏的通用算法框架。我们还证明了许多先前实用系统中开发的元算法甚至无法实现基本目标，即获得代理人的总奖励的平等份额。

Jun, 2024

成交还是放弃？端到端学习的谈判对话

本文基于一项采用自然语言对话的多议题协商任务的人际交互数据集，通过对对话状态未标记的文本数据的学习，对话模型能够具备自然语言对话和推理技能，通过模拟对话过程能够取得更好的表现，本文的数据集和代码公开。

Jun, 2017

在合作部分可观察游戏中通过搜索优化策略

本文提出了两种搜索技术，分别是单智能体搜索和多智能体共同知识搜索，在合作部分可观察游戏中应用，以提升合作智能体的性能。在 Hanabi 基准挑战问题中，两种技术均能大幅提高每个测试智能体的性能，并对使用 RL 训练的策略产生了新的最先进得分 24.61/25。

Dec, 2019

自私而明智：探讨人机互动中代理人个性的影响

自我博弈强化学习是设计谈判对话系统的一种自然方法：通过训练一个与模拟用户互动的代理来最大化其性能，该模拟用户能够模仿人际对话数据。然而，在先前的工作中发现，这种方法导致系统存在根本缺陷，无法学习妥协的价值，经常导致达不成协议（即对方没有交易），最终损害了模型的整体性能。在以书籍、帽子和球为对象的多问题谈判任务中，基于经济学的谈判理论，我们通过两种新颖的方式修改训练程序，设计具有不同个性的代理并分析其与人类合作伙伴的表现。研究发现，虽然两种技术都有潜力，但一种自私的代理（在最大化自身性能的同时避免退出）通过隐性学习为自己和谈判伙伴产生价值而表现优于其他变体。我们讨论了这些发现对于成功谈判对话系统的意义以及如何设计这些系统的未来影响。

Oct, 2023