机器学习科学中的泄漏与再现危机

Jul, 2022

机器学习科学中的泄漏与再现危机

Leakage and the Reproducibility Crisis in ML-based Science

Sayash Kapoor, Arvind Narayanan

TL;DR通过调查 ML 方法在 17 个领域中被广泛采用的文献，我们系统地调查了 ML 方法在科学研究中的可重复性问题，并发现数据泄漏确实是一个普遍存在的问题，并提出了模型信息表来报告基于 ML 模型的科学主张，以便在发布前发现泄漏情况，并进行了模拟实验，发现所有声称复杂的 ML 模型在文献中都未能复制，并且与几十年前的 Logistic 回归模型相比，复杂的 ML 模型并没有表现出更好的效果。

Abstract

The use of machine learning (ML) methods for prediction and forecasting has become widespread across the quantitative sciences. However, there are many known methodological pitfalls, including data leakage, in ML

machine learning reproducibility data leakage scientific claims complex models

发现论文，激发创造

机器学习管道中的信息泄漏

机器学习（ML）提供了强大的预测建模工具，然而，如果不正确实施和评估，ML 流程可能会出现泄漏问题，导致过于乐观的性能估计并且无法泛化到新数据，本文旨在拓展对于在设计、实施和评估 ML 流程中导致泄漏的原因的理解，以具体示例说明，提供了各种类型的泄漏的综合概述和讨论。

Nov, 2023

机器学习驱动研究的可重现性

面对研究的可重复性危机，机器学习和人工智能研究也面临同样的问题。虽然研究社区已经提出了不同的解决方案如使用机器学习平台，但机器学习驱动的研究的可重复性水平并没有显著提高。本文通过综述相关文献，讨论机器学习驱动研究中的可重复性问题和障碍，并探索工具、实践和干预等潜在驱动因素，提供对于支持机器学习可重复性的不同解决方案可行性的决策支持。

Jul, 2023

揭开机器学习驱动科学中的过度乐观和出版偏见

通过研究机器学习中的数据泄露和出版偏见等因素，本研究提出了一种新颖的随机模型来估计真实准确性，并纠正了过度乐观的诊断结果，从而提供了更真实的机器学习性能评估。

May, 2024

机器学习研究中的可重复性：概述、障碍和推动因素

我们讨论了机器学习驱动研究的可重复性问题，包括了障碍和驱动因素，旨在为决策制定提供有关采用不同解决方案支持机器学习可重复性的见解和贡献。

Jun, 2024

深度学习软件故障预测的可复现性研究

分析软件工程领域的软件错误预测是否存在与其他机器学习领域相似的可复现性问题，发现大部分研究文章缺乏关键的复现元素，呼吁改进研究实践以确保基于机器学习的研究的可复现性。

Feb, 2024

不要按按钮！探究机器学习和迁移学习中的数据泄漏风险

这篇论文研究了机器学习中的一个关键问题 —— 数据泄漏，讨论了数据泄漏的分类，探讨了它与特定任务的关系，研究了其在迁移学习中的发生，并将传统归纳式机器学习与转导式机器学习框架进行了比较，最后强调了解决数据泄漏对于稳健可靠的机器学习应用的重要性。

Jan, 2024

机器学习中的不可重复性来源：综述

机器学习中模型比较中存在的不可重现性问题及其来源进行分析，发现研究文献中存在多个已知的不可重现性问题，导致很多研究结果无法得到验证，提出了三个值得深入探究的方向。

Apr, 2022

混淆泄漏：机器学习中的混淆消除导致泄漏

机器学习中采用的去混淆方法会产生偏差并导致误导性结果，同时本研究指出了可能存在的机制并提供了实用指导。在实际临床数据的应用中，本方法在预测多动症时，伴随着抑郁症的混淆会导致准确性被高估。

Oct, 2022

一点点泄漏将毁掉一艘巨舰：从头到尾的大语言模型透明度调查

大型语言模型存在泄漏风险，可能泄漏个人信息、侵犯版权以及评估数据集，本文通过实验调查泄漏数据比例与输出速率、检测性能之间的关系，并提出了一种自检测方法，结果显示即使训练数据中含有少量泄漏数据，大型语言模型仍能产生大量的泄漏信息，而我们的自检测方法表现优于现有的方法。

Mar, 2024

机器学习流水线：来源追溯性、可重现性和 FAIR 数据原则

本文介绍了支持机器学习流程端到端可重复性的目标和初步步骤，探讨了除源代码和数据集可用性之外影响机器学习实验证明性的因素，并提出了将 FAIR 数据实践应用于机器学习流程的方法。文中将 ProvBook 作为工具，分析了 Jupyter Notebooks 捕捉和比较机器学习实验及其可重复性的初步结果。

Jun, 2020