BriefGPT.xyz
Ask
alpha
关键词
persistent safety
搜索结果 - 1
安全强化学习中的迭代可达性估计
确保安全对于强化学习的实际部署非常重要。我们提出了一个新的框架,用于在一般的随机环境中进行安全约束的强化学习。我们的算法在最优化奖励的同时保持持续的安全特性,通过最小化累积折扣违规行为来产生最安全的行为,并基于可达性估计来优化我们提出的框架
→
PDF
9 months ago
Prev
Next