ICMLJan, 2022
基于分数的游戏中的分数与胜率:强化学习采用哪种奖励?
Score vs. Winrate in Score-Based Games: which Reward for Reinforcement Learning?
Luca Pasqualini, Gianluca Amato, Marco Fantozzi, Rosa Gini, Alessandro Marchetti...
TL;DR此篇论文探讨了在比分规则下,AlphaZero 算法在处理完美信息的双人零和游戏时可能会有积分亚优的问题,并给出了一个理论解释,阐述了在输赢状态下出于不同考虑的策略选择。