BriefGPT.xyz
Ask
alpha
关键词
generalized reduced gradient (grg)
搜索结果 - 1
使用硬约束进行连续控制的简化策略优化
近期有关约束强化学习的研究进展为强化学习提供了一定的安全性保证。本文介绍了一种将 RL 与 GRG 相结合的减少策略优化算法 (RPO),用于处理存在非凸硬约束条件的连续控制任务。通过将动作分为基本动作和非基本动作,RPO 算法采用了 GR
→
PDF
9 months ago
Prev
Next