在开放环境中检测和学习非分布数据：算法和理论

Oct, 2023

在开放环境中检测和学习非分布数据：算法和理论

Detecting and Learning Out-of-Distribution Data in the Open world: Algorithm and Theory

Yiyou Sun

TL;DR这篇论文在机器学习领域做出了重要贡献，特别是在面对前所未见的数据和情境的开放世界情况下。通过研究开放世界机器学习中的 Out-of-distribution (OOD) Detection 和 Open-world Representation Learning (ORL) 两个关键步骤，该论文提出了算法解决方案和理论基础，为构建性能卓越且在不断变化的复杂实际世界中可靠的机器学习模型铺平了道路。

Abstract

This thesis makes considerable contributions to the realm of machine learning, specifically in the context of open-world scenarios where systems face previously unseen data and contexts. Traditional machine learning

machine learning open-world scenarios out-of-distribution (ood) detection open-world representation learning (orl)algorithmic solutions

发现论文，激发创造

学习增加分布以进行外部分布检测

开放世界分类系统中，鉴别与内部分布不同的外部数据是一个重要问题，利用辅助外部数据进行模型训练可以改善开放世界检测性能。本文从学习理论的角度，通过构建一个包含辅助外部数据 Wasserstein 球中的全部分布的外部分布集，提出了分布增强的外部数据学习 (DAL) 方法，通过对球中的最差外部数据进行训练，缩小外部数据分布差异，从而提高开放世界检测性能。结果表明，DAL 在代表性的外部数据检测设置中具有优越性。

Nov, 2023

开放世界机器学习的关键评估

本文针对开放世界机器学习系统，测试其在各种条件下的可靠性，并发现在组件的选择方面，包括原始数据、模型体系结构和 OOD 数据等选择均严重影响 OOD 检测的性能，可能引起超过 70％的误检率，而对于包含 22 种非故意损坏或对抗性扰动的 OOD 输入，误报率可以达到 100％，并提出了结合鲁棒分类器和 OOD 检测技术来解决 OOD 检测和适应性之间的新的权衡。

Jul, 2020

开放世界机器学习：回顾与新展望

综合研究开放环境下机器学习的未知拒绝、新类别发现和类别自适应学习等方面，探讨了当前方法的挑战、原则和限制，以及未来研究的潜在方向。旨在全面介绍新兴的开放环境机器学习范式，帮助研究人员在各自领域构建更强大的人工智能系统，并促进人工通用智能的发展。

Mar, 2024

关于外部分布检测的可学习性

基于 PAC 学习理论，本研究探讨了超出分布检测的可学习性，给出了不同场景下学习 OOD 检测的必要和充分条件，并从理论上支持了一些 OOD 检测方法。

Apr, 2024

面向外部分布泛化：一项调查

该研究论文系统而全面地讨论了 Out-of-Distribution generalization 问题，其中包括它的定义、方法论、评估以及对未来的启示和发展方向，以及包括无监督表示学习在内的现有方法。

Aug, 2021

开放世界的终身图学习

我们在开放世界场景中研究了终身图形学习的问题，通过利用 ODD 检测方法来识别新的类别，并将现有的非图形 ODD 检测方法应用于图形数据中，通过聚合图形邻域信息与 OOD 检测方法相结合来进行新类别的检测。我们提出了一种弱监督相关反馈（Open-WRF）方法，用于减少 OOD 检测中阈值的敏感性，并通过在六个基准数据集上的评估结果证明我们的方法在 OOD 评分的邻域聚合上的性能优于现有方法，同时我们证明了我们的 Open-WRF 方法在阈值选择上更为鲁棒，并分析了图形邻域对 OOD 检测的影响。我们的聚合和阈值方法与任意图形神经网络和 OOD 检测方法兼容，使得我们的方法适用于许多实际应用。

Oct, 2023

开放世界中的半监督目标检测

在这篇论文中，我们提出了一个名为 Open World Semi-supervised Detection（OWSSD）的框架，该框架通过一种轻量级的自编码器网络对进行过 ID 数据训练从而有效地检测 OOD 数据，并从中学习，我们通过大量评估表明我们的方法在与最先进的 OOD 检测算法的竞争中表现出色，并显著改善了开放世界场景下的半监督学习性能。

Jul, 2023

自然语言处理中的超领域检测综述

本文回顾了最近关于 out-of-distribution 检测的进展，重点关注了自然语言处理方面的方法。通过分类和介绍数据集、应用和评估指标，总结了现有的研究，同时提出了未来的研究方向。

May, 2023

不可靠的外部来源下的超出分布检测学习

基于数据生成学习的辅助任务的 OOD 学习（ATOL）是一种强大的方法，可以消除误生成的 OOD 数据，从而使 ID 和 OOD 数据的区分实现真正的 OOD 检测。

Nov, 2023

在自然环境中训练 OOD 检测器

本文提出了一种基于野外混合数据的新颖框架，旨在改进在野外部署的机器学习模型的 OOD 检测能力，通过最大化 OOD 检测率并设定 ID 数据的分类误差和 ID 示例的 OOD 错误率的约束条件的学习目标，有效地解决了这个问题，并在常见的 OOD 检测任务中获得了优异的性能。

Feb, 2022