AAAISep, 2018

面临威胁的强化学习

TL;DR本文介绍了一种面向对抗环境的 Markov 决策过程(TMDPs)框架,提出了 level-k 思考策略,并通过实验验证了在考虑敌手因素的情况下学习模型的好处。