Oct, 2022

如何在近端策略优化中实现不确定性估计

TL;DR该研究提出了 Actor-Critic RL 算法的不确定性和 OOD 状态的定义,使用多种不确定性估计方法,展示不同的 OOD 检测性能,并提出了一种 Pareto 优化问题的解决方案,应用 Masksembles 方法成功的平衡了奖励和 OOD 检测性能。