Jul, 2022

机器学习科学中的泄漏与再现危机

TL;DR通过调查 ML 方法在 17 个领域中被广泛采用的文献,我们系统地调查了 ML 方法在科学研究中的可重复性问题,并发现数据泄漏确实是一个普遍存在的问题,并提出了模型信息表来报告基于 ML 模型的科学主张,以便在发布前发现泄漏情况,并进行了模拟实验,发现所有声称复杂的 ML 模型在文献中都未能复制,并且与几十年前的 Logistic 回归模型相比,复杂的 ML 模型并没有表现出更好的效果。