如何检测不同类型的离群文本

EMNLPSep, 2021

Types of Out-of-Distribution Texts and How to Detect Them

Udit Arora, William Huang, He He

TL;DR本文提供了关于 Out-of-distribution 检测方法的研究，发现在检测背景变化的数据方面，密度估计表现更好，而在语义变化的数据方面则模型校准表现更好。同时指出当前方法在挑战数据检测方面存在缺陷，需要对 OOD 进行明确的定义。

Abstract

Despite agreement on the importance of detecting out-of-distribution (OOD) examples, there is little consensus on the formal definition of OOD examples and how to best detect them. We categorize these examples by whether they exhibit a background shift or a →

out-of-distribution detection background shift semantic shift model calibration density estimation

发现论文，激发创造

文本分类任务中传统的外部分布检测方法的基准测试

本文着重介绍了现有方法在处理 NLP 中 OOD 检测时的局限性，对八种常见的 OOD 检测方法进行了评估并分析了其存在的问题，发现现有方法对于各类型分布偏移的检测敏感性不够，在领域内文本中存在令人困惑的测试场景，而需要开发更有效的 OOD 检测方法，本文为未来的研究提供了一个良好的、定义明确的基础。

Jul, 2023

统一的超领域检测：基于模型视角

本文提出了一个更广泛的框架来研究模型针对特定因素（如未知类别、协变量变化等) 检测 out-of-distribution（OOD）问题，该框架能够检测出一个训练好的机器学习模型无法正确预测的测试样例，而是否拒绝该测试样例取决于模型本身，该文提供了大量分析和见解，用以改进和理解在不受控制的环境中的 OOD 检测。

Apr, 2023

ImageNet-OOD: 解析现代异常检测算法

通过广泛的实验，我们展示了当前的 ODD 检测器对于协变量转移比语义转移更为敏感，并且最新的 ODD 检测算法对于语义转移的检测效果微乎其微。我们的数据集和分析为指导未来的 ODD 检测器设计提供了重要见解。

Oct, 2023

自然语言处理中的超领域检测综述

本文回顾了最近关于 out-of-distribution 检测的进展，重点关注了自然语言处理方面的方法。通过分类和介绍数据集、应用和评估指标，总结了现有的研究，同时提出了未来的研究方向。

May, 2023

使用大型语言模型生成的同类对等生成器进行外部分布检测

提出了一种名为 ODPC 的新方法，通过大型语言模型设计生成特定提示词来产生具有 ID 语义的 OOD 对等类，以便于检测，并采用基于 OOD 对等类的对比损失来学习紧凑的 ID 类别表示，并改善不同类别之间的界限清晰度。在五个基准数据集上进行的广泛实验表明，该方法可以得到最先进的结果。

Mar, 2024

基于 OOD 训练数据的许多方法估计相同核心量的组合来分解 OD 检测

本文旨在识别常见的目标，以及识别不同 OOD 检测方法的隐含评分函数。我们展示了许多方法在共享学习方式下表现相似，二进制区分器达到与异常暴露相似的 OOD 检测性能，还展示了置信度损失具有在理论上最优得分函数不同但与训练和测试 out-distribution 相同时的函数相似的隐含评分函数，从实践中发现，这些方法训练方式一致时都表现相似。

Jun, 2022

图像字幕中检测识别外部分布的基线算法

本文探讨了图像标注中的 OOD 检测问题，并提出了评估模型性能的方法。此外，研究分析并展示了使用标题可能性得分来检测和拒绝 OOD 图像的有效性。

Jul, 2022

在自然环境中训练 OOD 检测器

本文提出了一种基于野外混合数据的新颖框架，旨在改进在野外部署的机器学习模型的 OOD 检测能力，通过最大化 OOD 检测率并设定 ID 数据的分类误差和 ID 示例的 OOD 错误率的约束条件的学习目标，有效地解决了这个问题，并在常见的 OOD 检测任务中获得了优异的性能。

Feb, 2022

离群数据：对抗样本的熟悉 —— 综述

深度神经网络在现实应用中会遇到来自分布失真和对抗性攻击的数据，本综述聚焦于这两个领域的交叉研究，探讨如何通过鲁棒的分布失真检测和统一的鲁棒性进行对抗性攻击和对分布失真数据的健壮处理。

Apr, 2024

针对超出分布检测的可证明保障

本文研究了如何检测机器学习模型移植到实际应用中可能出现的数据分布偏移，提出了一个以神经网络为基础的 OOD 检测方法，并结合理论与实验表现对其进行了分析与评估。

Dec, 2021