关于外部分布检测的可学习性
本文回顾了最近关于 out-of-distribution 检测的进展,重点关注了自然语言处理方面的方法。通过分类和介绍数据集、应用和评估指标,总结了现有的研究,同时提出了未来的研究方向。
May, 2023
基于数据生成学习的辅助任务的 OOD 学习(ATOL)是一种强大的方法,可以消除误生成的 OOD 数据,从而使 ID 和 OOD 数据的区分实现真正的 OOD 检测。
Nov, 2023
本文提出了一个更广泛的框架来研究模型针对特定因素(如未知类别、协变量变化等) 检测 out-of-distribution(OOD)问题,该框架能够检测出一个训练好的机器学习模型无法正确预测的测试样例,而是否拒绝该测试样例取决于模型本身,该文提供了大量分析和见解,用以改进和理解在不受控制的环境中的 OOD 检测。
Apr, 2023
本文旨在识别常见的目标,以及识别不同 OOD 检测方法的隐含评分函数。我们展示了许多方法在共享学习方式下表现相似,二进制区分器达到与异常暴露相似的 OOD 检测性能,还展示了置信度损失具有在理论上最优得分函数不同但与训练和测试 out-distribution 相同时的函数相似的隐含评分函数,从实践中发现,这些方法训练方式一致时都表现相似。
Jun, 2022
本文研究了如何检测机器学习模型移植到实际应用中可能出现的数据分布偏移,提出了一个以神经网络为基础的 OOD 检测方法,并结合理论与实验表现对其进行了分析与评估。
Dec, 2021
本文首先提出一个通用的 OOD 检测框架,其中包括了另外四个相关问题的特例或子任务,然后重点回顾了这五个领域的最新技术发展,特别是 OOD 检测方法,并总结了开放的挑战和潜在的研究方向。
Oct, 2021
该研究论文系统而全面地讨论了 Out-of-Distribution generalization 问题,其中包括它的定义、方法论、评估以及对未来的启示和发展方向,以及包括无监督表示学习在内的现有方法。
Aug, 2021
本文提出了一种基于野外混合数据的新颖框架,旨在改进在野外部署的机器学习模型的 OOD 检测能力,通过最大化 OOD 检测率并设定 ID 数据的分类误差和 ID 示例的 OOD 错误率的约束条件的学习目标,有效地解决了这个问题,并在常见的 OOD 检测任务中获得了优异的性能。
Feb, 2022
使用 SupCon 训练从训练分布中识别外分布样本是机器学习模型安全部署中的重要问题。我们在这项工作中运用强大的 SupCon 学习表征,并提出了一种全面的方法来学习对 OOD 数据稳健的分类器。我们通过增加两个对比项来扩展 SupCon 损失,第一个项将辅助 OOD 表征与 ID 表征分开,而不对辅助数据的相似性产生任何约束。第二个项将 OOD 特征远离现有类原型,并将 ID 表征推近其对应的类原型。当辅助 OOD 数据不可用时,我们提出了特征混合技术来高效生成伪 OOD 特征。我们的解决方案简单高效,作为闭集监督对比表征学习的自然扩展。我们在常见基准测试中与不同的 OOD 检测方法进行了比较,并展示了最先进的结果。
Oct, 2023
开放世界分类系统中,鉴别与内部分布不同的外部数据是一个重要问题,利用辅助外部数据进行模型训练可以改善开放世界检测性能。本文从学习理论的角度,通过构建一个包含辅助外部数据 Wasserstein 球中的全部分布的外部分布集,提出了分布增强的外部数据学习 (DAL) 方法,通过对球中的最差外部数据进行训练,缩小外部数据分布差异,从而提高开放世界检测性能。结果表明,DAL 在代表性的外部数据检测设置中具有优越性。
Nov, 2023