Mar, 2013

游戏中的罚款调节动态与强韧学习程序

TL;DR通过一种启发式的学习方案,我们派生出了一种由惩罚项调整的复制者漂移的新类连续时间学习动态,这种惩罚调节的动态相当于玩家保留他们正在进行的回报的指数折扣总和,然后基于这些表现分数使用平滑最佳响应选择行动。借助这种内在的对偶,所提出的动态满足一种进化博弈理论的民间定理的变体,并且它们以(任意精度的)纳什均衡的逼近收敛于潜在游戏。受到交通工程应用的启发,我们进一步利用这种对偶来设计离散时间的,基于回报的学习算法,该算法具有这些收敛性质,并且仅需要玩家观察他们在游戏中的回报