Jun, 2016

博弈中的学习: 快速收敛的稳健性

TL;DR本论文证明具有低拟近似遗憾性质的学习算法在大类重复博弈中具有快速收敛到近似最优解的能力,包括使用基本对冲算法的算法。此外,作者对之前的结果进行了优化,并将该框架应用于动态人口博弈,并在大小和时间复杂度方面取得了改进。作者还提出了一种新的算法用于泊松回报任务,在效率和小损失方面都更有吸引力。