Oct, 2024

通过策略优化在受限马尔可夫决策过程中的最优强后悔和违反

TL;DR本研究解决了在受限马尔可夫决策过程(CMDPs)中实现亚线性强后悔和强累计约束违反的挑战。提出了一种高效的策略优化算法,能够实现$\widetilde{\mathcal{O}}(\sqrt{T})$的强后悔和违反,证明使用这种方法可以达到最优界限。该工作为线上学习的效率提升提供了新思路。