基于分数的游戏中的分数与胜率：强化学习采用哪种奖励？

ICMLJan, 2022

基于分数的游戏中的分数与胜率：强化学习采用哪种奖励？

Score vs. Winrate in Score-Based Games: which Reward for Reinforcement Learning?

Luca Pasqualini, Gianluca Amato, Marco Fantozzi, Rosa Gini, Alessandro Marchetti...

TL;DR此篇论文探讨了在比分规则下，AlphaZero 算法在处理完美信息的双人零和游戏时可能会有积分亚优的问题，并给出了一个理论解释，阐述了在输赢状态下出于不同考虑的策略选择。

Abstract

In the last years, the DeepMind algorithm alphazero has become the state of the art to efficiently tackle perfect information two-player zero-sum games with a win/lose outcome. However, when the win/lose outcome is decided by a final score difference, →

alphazero two-player games score differences policy uncertainty

发现论文，激发创造

公正博弈：强化学习的挑战

本文介绍了 AlphaZero 和 MuZero 的算法，探究了它们的局限性，并提供了新的瓶颈测试方法以解决 AlphaZero 在某些博弈游戏中学习能力不足的问题，并发现 AlphaZero 在解决 nim 游戏时会面临严重的问题。

May, 2022

AlphaZeroES：直接最大化得分胜过规划损失最小化

在单智能体环境中，通过直接最大化回合得分而不是最小化规划损失，可以在不改变蒙特卡洛树搜索算法和神经网络结构的情况下，优于 AlphaZero。

Jun, 2024

5*5 多人围棋的深度强化学习

使用搜索算法和深度强化学习，本文提出并分析了使用 AlphaZero 和 Descent 算法自动学习多人版围棋。进一步展示了搜索算法和深度强化学习提高了棋局水平的结果。

May, 2024

多人零和游戏中解决联盟困境的学习

本研究通过对称的零和矩阵游戏，证明了联盟形成可以被看作是一个社会困境，并且实证表明，在多代理强化学习中，天真的方法往往失败。同时，我们引入了点对点的合约机制来发现和执行联盟。最后，我们将我们的代理模型推广到了包括时间延伸合约的情况，并提出了进一步研究的机会。

Feb, 2020

使用通用增强学习算法通过自我对弈掌握国际象棋和将棋

该研究介绍了使用新的 AlphaZero 算法以及无领域知识的方式进行强化学习，让计算机在三个领域的棋类游戏：围棋、象棋和将棋中均以超级专业水平进行游戏。

Dec, 2017

排序奖励：为组合优化实现自我对弈强化学习

本文介绍了一个名为 Ranked Reward（R2）的算法，它能够将敌对自我博弈用于单人游戏，并将其应用于维度为 2 和 3 的装箱问题，证明该算法胜过基本的蒙特卡罗搜索、启发式算法、整数规划求解器，并对排名奖励机制进行了分析。

Jul, 2018

在线微调的游戏求解

应用在线微调的方法解决游戏问题，在计算时间上相比基准方法仅使用了 23.54%，表明节约的规模与问题的大小成正比。

Nov, 2023

关于回合制零和马尔可夫博弈的强化学习

本文提出了一种基于强化学习的方法，结合 “探索，策略改进和监督学习”，以找到与纳什均衡相关的价值函数和策略。通过实验证明了该方法在特定情况下可以在近似值方面找到纳什均衡。

Feb, 2020

基于深度强化学习和搜索算法的不完全信息博弈组合

本文介绍了 ReBeL，它是一种通用的强化学习和搜索框架，并在任何两人零和博弈中证明收敛于纳什平衡。同时，使用比任何先前的扑克 AI 更少的领域知识，ReBeL 在无限制德州扑克中实现了超人类性能。

Jul, 2020

双人零和博弈中智能体理性的大规模学习

这篇论文介绍了一种应用于实际情境下的框架，用于推断底层博弈参数，其中包括了基于决策理论的行为模型，用于学习复杂博弈中有理智的行为，并利用第一阶原始 - 对偶方法扩展了有效的端到端学习算法和简化博弈求解和梯度计算的计算。

Mar, 2019