ICMLJun, 2021

共识乘权更新:使用基于投影器的游戏签名学习学习

TL;DR本研究介绍了一种新的以学习系数的增量式更新规则为主要方法的强化学习策略,该策略依据游戏的本质 —— 游戏签名进行调整,用于学习在游戏中达到最优状态的方法,其中游戏的多个方面分解成具有交换性的投影算子,介绍了一个新的算法 CMWU,在零和双矩阵游戏中具有局部收敛的保证。