Feb, 2024

在约束马尔可夫决策过程中实现 $\tilde {O}(1/ε)$ 的样本复杂性

TL;DR我们研究了强化学习问题中的约束马尔可夫决策过程(CMDP),并通过优化算法对 CMDP 问题的样本复杂度提出了改进,实现了优化的问题相关保证。