如何在近端策略优化中实现不确定性估计

Oct, 2022

如何在近端策略优化中实现不确定性估计

How to Enable Uncertainty Estimation in Proximal Policy Optimization

Eugene Bykovets, Yannick Metz, Mennatallah El-Assady, Daniel A. Keim, Joachim M. Buhmann

TL;DR该研究提出了 Actor-Critic RL 算法的不确定性和 OOD 状态的定义，使用多种不确定性估计方法，展示不同的 OOD 检测性能，并提出了一种 Pareto 优化问题的解决方案，应用 Masksembles 方法成功的平衡了奖励和 OOD 检测性能。

Abstract

While deep reinforcement learning (RL) agents have showcased strong results across many domains, a major concern is their inherent opaqueness and the safety of such systems in real-world use cases. To overcome these issues, we need agents that can quantify their uncertainty and detect

uncertainty out-of-distribution detection actor-critic rl proximal policy optimization (ppo)masksembles

发现论文，激发创造

基于不确定性的深度增强学习外分布分类

提出基于不确定性的 Out-of-Distribution 分类框架（UBOOD），通过利用智能体价值函数的认知不确定性，结合不同的不确定性估计方法进行分类，包括具体的负值 dropout 方法或集成方法，并采用训练数据的不确定性分布计算动态分类阈值，实现对深度 RL 中的 Out-of-Distribution 数据的可靠检测。

Dec, 2019

基于不确定性的离线强化学习与多样化 Q 集成

本文提出了一种基于不确定性的离线强化学习方法，考虑 Q 值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员 - 批评家算法，该算法在大多数 D4RL 基准测试中实现了最先进的性能。

Oct, 2021

使用未标记数据增强离线强化学习

该研究提出了一种解决离线强化学习中的 OOD 问题的新方法，通过引入离线强化学习师生框架和策略相似度度量，使得学生策略不仅可以从离线数据集中获取见解，还可以从教师策略传递的知识中获得额外的信息，从而有效解决 OOD 问题。

Jun, 2024

乐观的近端策略优化

本研究通过提出一种基于乐观策略优化的方法（Optimistic Proximal Policy Optimization，OPPO），针对奖励稀少的领域，考虑了总收益的不确定性并在此基础上对策略进行乐观评估，从而优化自主代理的学习效果，实现了在表格任务上优于现有方法的结果。

Jun, 2019

基于不确定性的元强化学习用于坚韧的雷达跟踪

本文介绍了一种基于不确定性的元强化学习方法，结合区分经过训练的数据和测试数据的数据分布的机制，提高了模型的鲁棒性。在雷达追踪数据集上的测试表明，该方法在检测 OOD 数据时具有鲁棒性，并在追踪性能方面优于相关 Meta-RL 方法的峰值性能 16％和基准 35％。

Oct, 2022

离线强化学习的不确定性加权演员 - 评论家算法

提出了一种名为 Uncertainty Weighted Actor-Critic（UWAC）的离线强化学习算法，采用基于 dropout 的不确定性估计方法来检测 out-of-distribution（OOD）状态 - 动作对并相应地减小其在训练目标中的贡献，实验结果表明 UWAC 算法在提高模型稳定性和稀疏演示数据集上的表现上显著优于现有离线 RL 算法。

May, 2021

不确定性感知策略优化：一种稳健、自适应的信任区域方法

在强化学习中，针对数据量有限的情况，提出了一种基于不确定性管理技术的深度策略优化方法，可以生成稳健的策略更新，适应学习过程中的不确定性水平。

Dec, 2020

基于不确定性的分布离线强化学习

提出了一种不确定性感知的离线强化学习方法，同时解决了认知不确定性和环境随机性，能够学习风险规避策略并表征折扣累积奖励的整个分布。通过在风险敏感和风险中立基准测试中进行全面实验评估，证明了其卓越的性能。

Mar, 2024

面对混淆因素的悲观主义：部分可观察马尔可夫决策过程中可证明高效的离线强化学习

研究通过行为策略收集的数据集来学习优化策略的离线强化学习算法，并针对潜在状态的影响所产生的混淆偏差和最优策略与行为策略之间的分布转换问题，提出了代理变量悲观策略优化（P3O）算法。

May, 2022

贝叶斯不确定性估计在离域物体检测中的应用

基于预训练网络的提出高斯分布，通过权重参数抽样区分正常数据和超出分布的数据，证明我们的贝叶斯目标检测器在 BDD100k 和 VOC 数据集上的训练，并在 COCO2017 数据集上的评估中通过降低 FPR95 分数最多 8.19％和增加 AUROC 分数最多 13.94％来实现了令人满意的超出分布的辨别性能。

Oct, 2023