Mar, 2024

针对 Q 学习者的战略化策略:控制理论方法

TL;DR本文研究了 Q-learning 算法(一种经典且广泛应用于强化学习的方法)在游戏中受到复杂对手战略操纵的易感性,并量化了战略上熟练的代理人在了解对手的 Q-learning 算法的情况下可以如何利用一个天真的 Q-learner。为达到这个目的,我们将战略角色的问题定义为一个马尔可夫决策过程(具有涵盖所有可能的 Q 值的连续状态空间),将 Q-learning 算法作为基础动态系统。我们还提出了一种基于量化的近似方案来处理连续状态空间,并从理论上和数值上分析了其性能。