Nov, 2024

对抗性线性混合MDP的近优动态遗憾

TL;DR本文研究在未知转移和对抗性奖励下的线性混合MDP的动态遗憾问题,填补了目前方法在动态和非静态环境中的不足。我们提出了一种新算法,结合了基于占用测度的方法和基于策略的方法,以实现对动态环境和未知转移的有效处理。研究表明,该算法在动态遗憾方面达到了近优的性能,对相关领域具有重要的影响。