现代机器学习中的欠规范性对可信度的挑战

Nov, 2020

现代机器学习中的欠规范性对可信度的挑战

Underspecification Presents Challenges for Credibility in Modern Machine Learning

Alexander D'Amour, Katherine Heller, Dan Moldovan, Ben Adlam, Babak Alipanahi...

TL;DR本文发现欠规范是 ML 模型在实际领域应用中展现出意外糟糕行为的一个重要原因。作者使用计算机视觉、医学成像、自然语言处理、基于电子健康记录的临床风险预测以及医学遗传学的示例来证明在实践中出现的问题。因此，本文的结果表明需要在任何领域中的建模管道中显式地考虑欠规范。

Abstract

ML models often exhibit unexpectedly poor behavior when they are deployed in real-world domains. We identify underspecification as a key reason for these failures. An ML pipeline is underspecified when it can return many →

underspecification ml pipelines real-world deployment predictors training and deployment domains

发现论文，激发创造

预测并非理解：识别和解决机器学习中的不完备性

提出了一种使用独立性约束和数据流形对机器学习模型进行优化，以发现远离分布数据和具有良好预测性能的模型的方法，并讨论了模型选择的相关问题。

Jul, 2022

深度学习中欠指定问题的神经各向异性视角

本研究通过几何角度研究深度学习系统在分布改变的情况下的鲁棒性表现，发现神经网络在解决任务时处理问题不确定性的方式高度依赖于数据表示方法，而这会影响学习者的几何和复杂性。此研究揭示了理解深度学习中建筑归纳偏差对于解决公平性、鲁棒性、和泛化性非常重要。

Apr, 2021

超越发展：部署机器学习模型用于结构工程应用的挑战

通过两个实例，本文旨在阐明开发适用于应用的机器学习模型的挑战，强调了通过自适应采样、物理学知识导向的特征选择以及考虑模型复杂性和泛化能力来实施严格的模型验证技术的重要性。

Apr, 2024

机器学习管道中的信息泄漏

机器学习（ML）提供了强大的预测建模工具，然而，如果不正确实施和评估，ML 流程可能会出现泄漏问题，导致过于乐观的性能估计并且无法泛化到新数据，本文旨在拓展对于在设计、实施和评估 ML 流程中导致泄漏的原因的理解，以具体示例说明，提供了各种类型的泄漏的综合概述和讨论。

Nov, 2023

近确定性回归中的规范误差不确定性

前向论合理化了模型的泛化错误上界，为学习提供了健壮的 PAC-Bayes 边界。然而，已知损失的最小化会忽略错误规范化，在此情况下模型无法完全复现观测结果。我们分析了近确定、错误规范化和欠参数化替代模型的泛化错误，这是科学和工程中广泛相关的一种情况。我们证明了后验分布必须覆盖每个训练点以避免泛化错误的发散，并导出了一种满足此约束条件的集合假设，对线性模型而言额外开销最小。这种高效方法在模型问题上得到了证明，并应用于原子尺度机器学习中的高维数据集，由错误规范化导致的参数不确定性在欠参数化极限中仍然存在，从而可以准确预测和限定测试误差的上限。

Feb, 2024

人工智能中的规范过拟合

机器学习和人工智能方法常常因其固有偏见以及缺乏控制、问责和透明性而受到批评，因此，监管机构在控制这种技术潜在负面效应方面存在困难。本文定义了规范过拟合，即系统过度关注具体度量而忽视高级要求和任务性能的情况。我们在几个人工智能领域（如自然语言处理、计算机视觉、强化学习）进行了广泛的文献调查，对研究人员如何提出、衡量和优化规范度量进行了分类。通过对 2018 年至 2023 年年中的主要人工智能会议和期刊的论文进行基于关键字的搜索，我们发现并分析了 74 篇提出或优化规范度量的论文。虽然大多数论文隐含地解决了规范过拟合问题（例如，通过报告多个规范度量），但它们很少讨论规范度量在系统开发中应该起到的作用，也很少明确规范度量公式的范围和假设。

Mar, 2024

利用局部集成技术检测欠规范性

本研究提出了基于局部集成的方法来检测预先训练模型在测试时是否存在欠规范，该方法使用局部二阶信息来计算模型集合的预测方差，并在实验中表现出对检测测试数据中欠规范、检测伪相关性和主动学习具有应用价值的效果。

Oct, 2019

揭开机器学习驱动科学中的过度乐观和出版偏见

通过研究机器学习中的数据泄露和出版偏见等因素，本研究提出了一种新颖的随机模型来估计真实准确性，并纠正了过度乐观的诊断结果，从而提供了更真实的机器学习性能评估。

May, 2024

目标规范偏差、反事实预测和医疗算法公平性

机器学习在医疗保健中的偏见通常源于代表性或不完整的数据，以及潜在的健康差异。本文发现了影响机器学习预测工具的临床实用性的更普遍的偏见来源：目标规范偏见。目标规范偏见发生在目标变量的操作化与决策者对其定义的不匹配时，这种不匹配常常是微妙的，源于决策者通常对反事实的医疗场景的预测结果感兴趣，而不是实际情况。目标规范偏见独立于数据限制和健康差异。如果不进行修正，它会导致预测准确度的高估，医疗资源的低效利用以及对患者有害的次优决策。计量学中的最新研究提出了抵消目标规范偏见的方法，并避免其有害后果。

Aug, 2023

多元化和消歧化：从未明确定义的数据中学习

我们提出了 DivDis，这是一个简单的两阶段框架，它首先利用来自测试分布的未标记数据学习任务的多样性假设集，然后通过选择一个发现的假设来消除歧义，在图像分类和自然语言处理问题中可以发现使用鲁棒特征的假设。

Feb, 2022