DouRN: 通过残差神经网络提升 DouZero

Mar, 2024

DouRN: 通过残差神经网络提升 DouZero

DouRN: Improving DouZero by Residual Neural Networks

Yiquan Chen, Yingchao Lyu, Di Zhang

TL;DR本研究中，我们将残差网络引入到 DouZero 模型中，探索不同的架构设计并进行多角色测试，发现该模型在相同训练时间内显著提高了胜率。我们还引入了一个呼叫得分系统来辅助代理决定是否成为地主，通过这些改进，我们的模型始终优于现有版本的 DouZero 甚至有经验的人类玩家。

Abstract

deep reinforcement learning has made significant progress in games with imperfect information, but its performance in the card game doudizhu (Chinese Poker/Fight the Landlord) remains unsatisfactory.

deep reinforcement learning doudizhu douzero residual networks call scoring system

发现论文，激发创造

DouZero：自我对战深度强化学习掌握斗地主

利用深度神经网络，行动编码和并行执行器等方法，本文提出了一个名为 DouZero 的博弈 AI 系统，目标是在三人斗地主游戏中解决人工智能挑战。通过集成传统蒙特卡罗方法，DouZero 在数天的训练后就表现出色，并在 Botzone 排行榜上排名第一。本文展示了即使在行动空间复杂的情况下，经典的蒙特卡罗方法也能带来突破。

Jun, 2021

DouZero+: 对手建模和教练引导学习强化斗地主 AI

本论文介绍了在中国十分流行的卡牌游戏斗地主中引入强化学习以及对抗性网络，旨在提高斗地主人工智能的表现，并将系统实现了状态的全面探索，从而在斗地主 Botzone 排行榜上获得了最高排名。

Apr, 2022

DanZero: 强化学习在关弹游戏中的应用

本文介绍了一种基于加强学习技术的 AI 程序 DanZero，使用分布式框架训练其在类似于斗地主但更复杂的关打游戏中的表现，表现出出色的性能。

Oct, 2022

DanZero+: 强化学习在贯蛋游戏中的统治力

利用人工智能在复杂的卡牌游戏关单中开发了一个名为 DanZero 的 AI 程序，通过强化学习技术和分布式训练框架，以及采用预训练模型来改善性能，DanZero 表现出卓越的性能。

Dec, 2023

基于组合的 Q 学习算法在斗地主中的应用

本文研究了一类特殊的亚洲纸牌游戏斗地主，针对其巨大的行动空间提出了一种名为组合 Q 学习的新方法，利用两阶段网络和池化操作提取基本行动之间的关系，结果表明比传统的 Q 学习和 A3C 等算法更优，并使用对抗训练方法仅凭游戏规则训练出了可与人类媲美的代理。

Jan, 2019

完美信息提取：在斗地主中的压倒优势

PerfectDou 是一个基于 actor-critic 框架和 perfect information distillation 技术的 DouDizhu AI 系统，采用近端策略优化和广义优势估计以并行训练的方式训练。实验证明 PerfectDou 能够在 DouDizhu 游戏中击败所有现有的 AI 程序并达到最先进的性能水平。

Mar, 2022

深层残差强化学习

本文重新探讨了残差算法在无模型和有模型强化学习中的应用，提出了双向目标网络技术来稳定残差算法，在 DeepMind 控制套件基准测试中，得到了明显优于基准 DDPG 的残差版本，同时，在模型为基础的规划中，本研究发现残差算法是解决分布不匹配问题的有效方法，与现有的 TD（$k$）方法相比，我们的基于残差的方法对模型做出了更弱的假设，提高了性能。

May, 2019

5*5 多人围棋的深度强化学习

使用搜索算法和深度强化学习，本文提出并分析了使用 AlphaZero 和 Descent 算法自动学习多人版围棋。进一步展示了搜索算法和深度强化学习提高了棋局水平的结果。

May, 2024

MuZero 学习的模型是什么？

本文介绍了一种名为 MuZero 的深度模型强化学习算法，研究其深度学习模型的学习目标和用于策略改进的实用性，结果表明 MuZero 所学模型不能有效地推广到评估未知的策略，这限制了我们使用该模型进行计划进一步改善当前策略的程度。

Jun, 2023

差分隐私下的零冗余分布式学习

使用 DP-ZeRO 系统化解决可训练的巨大 DP 模型的问题，实现深度学习和大型模型的隐私保护训练。

Nov, 2023