ICMLJan, 2022

基于分数的游戏中的分数与胜率:强化学习采用哪种奖励?

TL;DR此篇论文探讨了在比分规则下,AlphaZero 算法在处理完美信息的双人零和游戏时可能会有积分亚优的问题,并给出了一个理论解释,阐述了在输赢状态下出于不同考虑的策略选择。