Jul, 2022

使用深度强化学习在双人 Atari 游戏中寻找不易被利用的策略

TL;DR本研究提出了新的端到端深度强化学习算法,用于学习二人零和马尔可夫博弈,我们的目标不是训练一个代理打败一个固定的对手,而是寻找纳什均衡策略,这些策略甚至不会被敌对对手剥削。我们提出了(a)Nash-DQN算法,将单个DQN的深度学习技术与经典马尔可夫博弈的纳什Q-learning算法相结合,用于解决表格式马尔可夫博弈; (b)Nash-DQN-Exploiter算法,此外采用一个探索指南来指导主代理的探索。我们对表格示例以及各种双人Atari游戏进行实验评估。我们的实证结果表明:(i)Neural Fictitious Self Play和Policy Space Response Oracle等许多现有方法找到的策略可能容易被敌对对手剥削;(ii)我们的算法的输出策略不太容易受到剥削,因此优于现有方法。