BriefGPT.xyz
Ask
alpha
关键词
approximate model-based shielding
搜索结果 - 2
利用近似模型防护在连续环境中实现概率安全保证
本文介绍了在连续环境中实现安全强化学习的方法,使用了适用于连续环境的近似基于模型的屏蔽 (AMBS) 框架,并提出了两种新的惩罚技术来改进策略梯度的稳定收敛性。
PDF
5 months ago
近似基于模型的安全强化学习护盾
我们提出了近似基于模型的屏蔽算法,用于验证学习强化学习策略相对于给定安全约束的性能,与其他安全感知方法相比,在一组具有状态相关安全标签的 Atari 游戏上表现出卓越的性能。
PDF
a year ago
Prev
Next