BriefGPT.xyz
Ask
alpha
关键词
state-wise constraints
搜索结果 - 2
各州受限制的政策优化
State-wise Constrained Policy Optimization (SCPO) 是第一个面向状态限制的强化学习通用策略搜索算法,通过引入最大马尔科夫决策过程的框架,证明在期望下满足状态限制,并通过在高维机器人任务中的有效
→
PDF
a year ago
基于状态的安全强化学习:一项调查
本文综述了在强化学习中解决状态限制问题的现存方法并比较了它们在安全性、可伸缩性、奖励表现等方面的差异和权衡,同时总结了当前方法的局限性并探讨了未来的研究方向。
PDF
a year ago
Prev
Next