BriefGPT.xyz
Ask
alpha
关键词
multiple constraints
搜索结果 - 2
多约束安全强化学习与目标抑制在安全关键应用中的应用
通过适应性抑制任务奖励最大化目标的方法,我们提出了目标抑制(Objective Suppression)的创新方法,以解决具有多个约束的安全强化学习任务所面临的挑战,在两个多约束安全领域进行了基准测试,包括一个自动驾驶领域,其中任何不正确的
→
PDF
5 months ago
受约束的批量策略学习
研究了实际领域中批量策略学习的问题,提出了一种系统性解决方案,包括强化学习和在线学习,其中包括多个约束条件和新的离线策略评估 (OPE) 方法,并在多个领域得到了强大的实证结果。
PDF
5 years ago
Prev
Next