ICMLJun, 2021

控制理论在游戏中的在线优化:连接遗憾、被动性和庞加莱循环

TL;DR通过控制理论中能量守恒的概念,将在线优化与游戏学习结合起来,证明了所有连续时间的 Follow-the-Regularized-Leader 动态都是无损耗的,这启发我们构建了一族具有简单梯度结构的无损耗学习动态,并将其拓展到了图形常和游戏等多种游戏动力学中。