BriefGPT.xyz
Ask
alpha
关键词
tu-recovery architecture
搜索结果 - 1
安全强化学习中的恢复学习
通过学习算法构建安全控制器以实现安全强化学习,提出了三阶段的架构 TU-Recovery Architecture,并通过辅助奖励来缓解对抗现象,以提高安全控制器在任务训练中的回报率和约束违规率。
PDF
10 months ago
Prev
Next