BriefGPT.xyz
Ask
alpha
关键词
robust constrained policy optimization
搜索结果 - 1
模型不匹配下的受限增强学习
在训练环境下,现有的关于约束强化学习(RL)的研究可能可以获得良好的策略。然而,在真实环境中部署时,由于训练与真实环境之间可能存在模型不匹配,它可能很容易违反最初满足的约束。为了解决上述挑战,我们将问题形式化为模型不确定性下的约束强化学习,
→
PDF
2 months ago
Prev
Next