关于外部分布测试价值的讨论:好哈特定律的一个例证
机器学习模型在非独立同分布的数据分布下表现出可疑的风险,因此需要发展算法来评估和改善模型的泛化能力以及处理分布变化的能力。本文综述了现有的非独立同分布泛化评估的研究,将其划分为三个范式:非独立同分布性能测试、非独立同分布性能预测和非独立同分布内在特性表征,并简要讨论了预训练模型的非独立同分布评价。最后,提出了未来研究的几个有前景的方向。
Mar, 2024
该研究论文系统而全面地讨论了 Out-of-Distribution generalization 问题,其中包括它的定义、方法论、评估以及对未来的启示和发展方向,以及包括无监督表示学习在内的现有方法。
Aug, 2021
本研究旨在开发用于图形的 OOD 基准(称为 GOOD),以区分协变和概念变化并设计准确反映不同变化的数据拆分。在 10 个常用的基线方法上提供性能结果,结果表明在分布内和 OOD 设置之间存在显着性能差距,本基准将不断发展并扩大资源的数量和种类。
Jun, 2022
本文提出了一个名为 OpenOOD 的统一的、结构化的代码库,该库实现了超过 30 种 ODD 检测方法,并在最近提出的一般化 OOD 检测框架下提供了全面的基准。作者通过对这些方法的全面比较发现,过去几年中,该领域取得了显著进展,其中预处理方法和正交后处理方法显示出很强的潜力。
Oct, 2022
我们研究了在监督学习和无监督学习环境中在测试时高效检测超出分布(OOD)样本的问题。通过统计检测重新定义 OOD 问题,研究了在统计术语中使 OOD 问题可识别的条件,并在 Wasserstein 距离的基础上研究了 OOD 测试的收敛性保证,并提供了简单的实证评估。
May, 2024
在本研究中,我们发现了一个反直觉的现象:在涉及目标任务的样本数量增加之前,由于少量的来自未知分布数据的样本,可以提高任务的泛化性能,但随着样本数量的增加,泛化误差达到阈值后会逐渐下降;我们采用合成数据集上的 Fisher's Linear Discriminant 和计算机视觉基准数据集(如 MNIST、CIFAR-10、CINIC-10、PACS 和 DomainNet)上的深度神经网络来证明这一现象;在我们知道哪些样本是未知分布的理想情况下,我们可以使用适当加权的目标和外部风险的目标函数来利用这些非单调趋势,但其实际效用有限,此外,当我们不知道哪些样本是未知分布时,数据增强、超参数优化和预训练等常用策略仍然无法保证目标泛化误差不会随着未知分布样本数量的增加而下降。
Aug, 2022
研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题,而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同设置下 (如分类和开放性文本生成) 两种预训练的 V&L 模型性能的全面评估,证明生成模型在大多数情况下对数据分布变化不太敏感,并在测试基准中表现更好。另外,我们发现多模态预训练可以提高大多数设置下的 OOD 性能。最后,本文重新审视了自动 VQA 评估度量的假设,并从经验上证明它们的严格性会反复惩罚模型的正确响应。
May, 2022
通过对分布偏移数据的分类和对其相关算法的大量实验比较,对已有数据集和算法进行了分类整合,为未来的迁移学习和数据偏移研究提供了参考。
Jun, 2021
本文第一次尝试对 OOD 问题的可学习性和扩张函数进行严格和量化的定义,并引入了一个新的扩张函数概念来量化不变特征的方差程度,进而证明了 OOD 泛化误差界,实验证明我们的模型选择标准相比基线有显著优势。
Jun, 2021
本文着重介绍了现有方法在处理 NLP 中 OOD 检测时的局限性,对八种常见的 OOD 检测方法进行了评估并分析了其存在的问题,发现现有方法对于各类型分布偏移的检测敏感性不够,在领域内文本中存在令人困惑的测试场景,而需要开发更有效的 OOD 检测方法,本文为未来的研究提供了一个良好的、定义明确的基础。
Jul, 2023