AlphaDou: 高性能端到端斗地主AI集成竞标

Jul, 2024

AlphaDou: 高性能端到端斗地主AI集成竞标

AlphaDou: High-Performance End-to-End Doudizhu AI Integrating Bidding

Chang Lei, Huan Lei

TL;DR通过修改深度蒙特卡洛算法框架，利用强化学习获得同时估计胜率和期望的神经网络模型，剪枝行动空间并基于胜率生成策略，在真实的斗地主环境中训练该模型实现了公开模型中最先进的水平。

Abstract

artificial intelligence for card games has long been a popular topic in AI research. In recent years, complex card games like Mahjong and

发现论文，激发创造

基于组合的Q学习算法在斗地主中的应用

本文研究了一类特殊的亚洲纸牌游戏斗地主，针对其巨大的行动空间提出了一种名为组合Q学习的新方法，利用两阶段网络和池化操作提取基本行动之间的关系，结果表明比传统的Q学习和A3C等算法更优，并使用对抗训练方法仅凭游戏规则训练出了可与人类媲美的代理。

Jan, 2019

DouZero：自我对战深度强化学习掌握斗地主

利用深度神经网络，行动编码和并行执行器等方法，本文提出了一个名为DouZero的博弈AI系统，目标是在三人斗地主游戏中解决人工智能挑战。通过集成传统蒙特卡罗方法，DouZero在数天的训练后就表现出色，并在Botzone排行榜上排名第一。本文展示了即使在行动空间复杂的情况下，经典的蒙特卡罗方法也能带来突破。

Jun, 2021

利用深度强化学习构建一款3人麻将人工智能

本文介绍 Meowjong，这是一款使用深度强化学习技术的三人日本麻将Sanma制作的AI。作者定义了一种紧凑而信息丰富的二维数据结构，用于编码Sanma游戏中可观察到的信息，并使用卷积神经网络对Sanma的动作进行预训练，并通过自我对弈增强了主要动作模型的性能，最终取得了在Sanma游戏中的领先地位。

Feb, 2022

完美信息提取：在斗地主中的压倒优势

PerfectDou是一个基于actor-critic框架和perfect information distillation技术的DouDizhu AI系统，采用近端策略优化和广义优势估计以并行训练的方式训练。实验证明PerfectDou能够在DouDizhu游戏中击败所有现有的AI程序并达到最先进的性能水平。

Mar, 2022

DouZero+: 对手建模和教练引导学习强化斗地主AI

本论文介绍了在中国十分流行的卡牌游戏斗地主中引入强化学习以及对抗性网络，旨在提高斗地主人工智能的表现，并将系统实现了状态的全面探索，从而在斗地主Botzone排行榜上获得了最高排名。

Apr, 2022

公正博弈：强化学习的挑战

本文介绍了 AlphaZero 和 MuZero 的算法，探究了它们的局限性，并提供了新的瓶颈测试方法以解决 AlphaZero 在某些博弈游戏中学习能力不足的问题，并发现 AlphaZero 在解决 nim 游戏时会面临严重的问题。

May, 2022

DanZero: 强化学习在关弹游戏中的应用

本文介绍了一种基于加强学习技术的 AI 程序 DanZero，使用分布式框架训练其在类似于斗地主但更复杂的关打游戏中的表现，表现出出色的性能。

Oct, 2022

AlphaZero五子棋

AlphaZero算法通过将深度学习与蒙特卡洛树搜索相结合，在象棋、围棋和五子棋等棋盘游戏中取得了巨大的成功。

Sep, 2023

DanZero+: 强化学习在贯蛋游戏中的统治力

利用人工智能在复杂的卡牌游戏关单中开发了一个名为DanZero的AI程序，通过强化学习技术和分布式训练框架，以及采用预训练模型来改善性能，DanZero表现出卓越的性能。

Dec, 2023

DouRN: 通过残差神经网络提升DouZero

本研究中，我们将残差网络引入到DouZero模型中，探索不同的架构设计并进行多角色测试，发现该模型在相同训练时间内显著提高了胜率。我们还引入了一个呼叫得分系统来辅助代理决定是否成为地主，通过这些改进，我们的模型始终优于现有版本的DouZero甚至有经验的人类玩家。

Mar, 2024