Feb, 2020

从庞加莱回归到不完全信息博弈的收敛:通过正则化寻找均衡

TL;DR研究了在顺序不完美信息游戏中遵循规则的领导者动态,推广了 Poincaré 循环结果,并探讨了通过调整奖励来建立收敛保证的技术,进而构建了精确收敛到 Nash 平衡的算法,为零和二人不完美信息游戏的无模型算法提供了新思路。