May, 2023

游戏学习对学习者是否有益?

TL;DR研究了两个智能体在重复对局中报酬和悔恨之间的权衡,提出了一种广义均衡概念,讨论了不同对手情况下的最优战略和可行方案,探究了利用这种广义均衡学习最优策略的方法。