BriefGPT.xyz
Ask
alpha
关键词
actor-critic rl
搜索结果 - 1
如何在近端策略优化中实现不确定性估计
该研究提出了 Actor-Critic RL 算法的不确定性和 OOD 状态的定义,使用多种不确定性估计方法,展示不同的 OOD 检测性能,并提出了一种 Pareto 优化问题的解决方案,应用 Masksembles 方法成功的平衡了奖励和
→
PDF
2 years ago
Prev
Next