BriefGPT.xyz
Ask
alpha
关键词
stochastic hard constraints
搜索结果 - 1
学习具有随机硬约束的对抗式马尔可夫决策过程
我们研究带有对抗性损失和随机硬约束的约束马尔可夫决策过程(CMDP)中的在线学习问题。我们设计了两种不同的情景,第一种是在一般 CMDP 中实现次线性遗憾和累积正约束违规的算法。第二种情景下,我们假设策略存在且对学习者已知,并设计了一个算法
→
PDF
4 months ago
Prev
Next