BriefGPT.xyz
Nov, 2024
对抗性线性混合MDP的近优动态遗憾
Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs
HTML
PDF
Long-Fei Li, Peng Zhao, Zhi-Hua Zhou
TL;DR
本文研究在未知转移和对抗性奖励下的线性混合MDP的动态遗憾问题,填补了目前方法在动态和非静态环境中的不足。我们提出了一种新算法,结合了基于占用测度的方法和基于策略的方法,以实现对动态环境和未知转移的有效处理。研究表明,该算法在动态遗憾方面达到了近优的性能,对相关领域具有重要的影响。
Abstract
We study episodic
Linear Mixture
MDPs with the unknown transition and adversarial rewards under full-information feedback, employing
Dynamic Regret
as the performance measure. We start with in-depth analyses of t
→