BriefGPT.xyz
Ask
alpha
关键词
optimal guarantees
搜索结果 - 2
在约束马尔可夫决策过程中实现 $\tilde {O}(1/ε)$ 的样本复杂性
我们研究了强化学习问题中的约束马尔可夫决策过程(CMDP),并通过优化算法对 CMDP 问题的样本复杂度提出了改进,实现了优化的问题相关保证。
PDF
4 months ago
统一 PAC 和遗憾:关于时序强化学习的统一 PAC 界
本篇论文提出了一种新的理论框架 Uniform-PAC,用于测量强化学习算法的性能,可以为高风险应用程序如医疗保健等提供统计性能保障。该框架与传统的 PAC 框架相比,可以提供高概率的后悔保证,因此形成了一座桥梁,填补了文献中缺少的两个设置
→
PDF
7 years ago
Prev
Next