SeRO: 自我监督强化学习用于超出分布情况的恢复

Nov, 2023

SeRO: 自我监督强化学习用于超出分布情况的恢复

SeRO: Self-Supervised Reinforcement Learning for Recovery from Out-of-Distribution Situations

Chan Kim, Jaekyung Cho, Christophe Bobda, Seung-Woo Seo, Seong-Woo Kim

TL;DR我们提出了一种新颖的方法，通过自我监督地训练，使机器人智能体能够在发生超出分布状态的情况下重新获得自身的状态分布，并大大提高了其从超出分布状态中恢复的能力。

Abstract

robotic agents trained using reinforcement learning have the problem of taking unreliable actions in an out-of-distribution (OOD) state. A

robotic agents reinforcement learning out-of-distribution self-supervised ood situations

发现论文，激发创造

RODD: 自监督方法用于强健的越界检测

该论文提出了一种简单且有效的基于自我监督对比学习的无关数据集的广义异常检测方法，该方法在一系列基准数据集上的表现优于现有技术，特别是在 CIFAR-100 数据集上的假阳性率（FPR@95）比 SOTA 方法低了 26.97％。

Apr, 2022

自主车辆能否识别并适应分布变化？

本文提出了一种新的方法，名称为稳健仿真规划（RIP），可以检测和适应一些分布的偏移，减少 OOD 场景中的自信和灾难性外推。如果模型的不确定性太高，建议采用反馈机制，同时引入一个自动驾驶汽车新场景基准测试（CARNOVEL）来评估驾驶代理的鲁棒性。

Jun, 2020

重新思考强化学习的非分布检测：改进评估和检测方法

我们提出一种基于时间序列特征提取的新方法 DEXTER，用于检测强化学习中的异常情况，该方法在基准场景中表现出优越性能，相比现有的异常检测算法和高维度变点检测方法具有显著优势。

Apr, 2024

使用未标记数据增强离线强化学习

该研究提出了一种解决离线强化学习中的 OOD 问题的新方法，通过引入离线强化学习师生框架和策略相似度度量，使得学生策略不仅可以从离线数据集中获取见解，还可以从教师策略传递的知识中获得额外的信息，从而有效解决 OOD 问题。

Jun, 2024

基于不确定性的深度增强学习外分布分类

提出基于不确定性的 Out-of-Distribution 分类框架（UBOOD），通过利用智能体价值函数的认知不确定性，结合不同的不确定性估计方法进行分类，包括具体的负值 dropout 方法或集成方法，并采用训练数据的不确定性分布计算动态分类阈值，实现对深度 RL 中的 Out-of-Distribution 数据的可靠检测。

Dec, 2019

如何在近端策略优化中实现不确定性估计

该研究提出了 Actor-Critic RL 算法的不确定性和 OOD 状态的定义，使用多种不确定性估计方法，展示不同的 OOD 检测性能，并提出了一种 Pareto 优化问题的解决方案，应用 Masksembles 方法成功的平衡了奖励和 OOD 检测性能。

Oct, 2022

S4RL：离线强化学习的惊人简单自监督

本文旨在通过对状态空间进行数据扩充来提高线下强化学习算法的泛化性能，并结合最先进的 Q-learning 技术，通过平滑学习到的状态 - 动作空间，实现在 MetaWorld 和 RoboSuite 等机器人学习环境以及 D4RL 数据集上显著的提升。

Mar, 2021

超越 OOD 状态行为：支持跨域离线强化学习

本文提出了交叉领域离线强化学习方法 BOSA，通过利用来自不同转移动态（环境）的源领域数据，解决了离线 RL 中存在的数据效率不高的问题，并通过实验证明其在离线数据效率方面的有效性。

Jun, 2023

SR-OOD: 通过样本修复进行离群分布检测

本文提出了一种新的 OOD 检测框架 SR-OOD，该框架利用样本修复技术，使生成模型关注语义信息，从而提高了 OOD 检测性能，实验结果表明了该方法的竞争力。

May, 2023

可证明鲁棒性的无需付出昂贵代价的异常检测

研究使用机器学习技术的安全关键系统需要可靠的不确定性评估。本研究发现，深度神经网络在处理分布外数据时可能会产生过度自信的预测。本研究提出了一种具有保护分布外数据和高准确度的分类器，并提供所有实验代码。

Jun, 2021