Oct, 2024

具有赌博反馈的受限马尔可夫决策过程的双优算法优化

TL;DR本文解决了受限马尔可夫决策过程(CMDPs)中仅基于全反馈的最佳双优算法的局限性。我们提出了针对赌博反馈的首个此类算法,能在随机约束情况下实现$\widetilde{\mathcal{O}}(\sqrt{T})$的遗憾和约束违反,同时在对抗约束下实现有效的奖励获取,显著提高了算法效率。