后选择和深度学习中的不端行为

Feb, 2024

Misconduct in Post-Selections and Deep Learning

Juyang Weng

TL;DR这篇论文揭示了机器学习中的深度学习不当行为和后选择的问题，并证明了采用交叉验证方法对数据进行划分并不能免除后选择中的作弊和隐藏行为。

Abstract

This is a theoretical paper on "Deep Learning" misconduct in particular and post-selection in general. As far as the author knows, the first peer-reviewed papers on deep learning misconduct are [32], [37], [36].

deep learning misconduct post-selection cheating hiding cross-validation

发现论文，激发创造

深度学习性能数据为何具有误导性

本论文阐述了深度学习中的两项不当行为 —— 数据删除和训练集上测试，指出这样的行为会导致性能数据被虚高；提出了一种名为 Nearest Neighbor With Threshold 的简单分类方法，证明该方法使用上述不当行为在拥有有限但无界存储空间和训练时间的情况下，在任何验证集和测试集上都可以达到零误差，但深度学习方法普遍无法通过真实测试集进行检验，证据超出了本文的范围。

Aug, 2022

评估用于深度神经网络的测试选择方法的稳健性

通过探索测试选择方法的失败情况和弊端，本文证实了这些方法在故障检测和性能估计方面存在可靠性问题，并提出了相应的解决方案。

Jul, 2023

分布偏差对留一交叉验证的影响

通过研究我们发现，在机器学习模型的性能评估中，交叉验证方法会引入分布偏差现象，导致性能评估及超参数优化受到负面影响。为了解决这个问题，我们提出了一个通用的校正分布偏差的交叉验证方法，并通过合成模拟和多个已发布的实验验证结果。

Jun, 2024

关于提高深度学习模型公正性的大规模经验研究

本论文开展了第一次大规模实证研究，全面比较了现有最先进的公平性改进技术的性能，结果显示不同方法在不同数据集和敏感属性上表现存在较大差异，且不同的公平评估指标产生显著不同的评估结果，其中预处理方法和内处理方法优于后处理方法，预处理方法表现最佳，本研究为深度学习模型公平性提供了全面的建议。

Jan, 2024

事后反转：我们是否过早选择模型？

在这篇文章中，作者提出了后企业行的选择技术，通过后企业行指标在模型开发决策中，如早停，检查点和更广的超参数选择，对模型进行指导。

Apr, 2024

深度神经网络选择性分类基准测试

通过对包含图像和表格数据的多样化数据集进行实证评估，该研究对 18 种基线模型进行基准测试，比较了它们在选择错误率、实证覆盖率、被拒绝实例类别分布以及在分布外实例上的性能等多个方面的表现，结果显示没有一个明确的最佳方法，最好的方法取决于用户的目标。

Jan, 2024

测试集中普遍出现标签错误，破坏机器学习基准

利用自信学习算法和众包验证方法发现了 10 个常用计算机视觉、自然语言和音频数据集的测试集中的标签错误问题，并探讨了这些标签错误对基准结果的影响以及建议应该使用经过正确标注的测试集来评估模型的有效性，对于高比例的标记错误的现实世界数据集，低容量的模型可能比高容量的模型更实用。

Mar, 2021

深度学习的 HARK 面 -- 从研究生下降到自动化机器学习

本文探讨了机器学习研究中存在的反复假设问题、负面结果的报道和算法的泛化能力。此外，从算法决策的责任、公正、道德和隐私保护的角度讨论了机器学习研究和发展的前景。

Apr, 2019

不要浪费时间：早停止交叉验证

使用早停法进行交叉验证的模型选择，可以更高效地收敛，涵盖更多搜索空间，并实现更好的性能。

May, 2024

临床机器学习中多源交叉验证的实证研究

在这项研究中，我们对多源数据环境下的标准 K 折交叉验证和留源交叉验证方法进行了系统的实证评估，考虑了基于心电图的心血管疾病分类任务，并将 PhysioNet CinC Challenge 2021 和山东省医院的公开可用数据集进行了整合和协调。我们的结果表明，无论是单一源数据还是多源数据上的 K 折交叉验证都会在目标是推广到新的数据源时系统地高估预测性能。留源交叉验证提供了更可靠的性能估计，具有接近零的偏差但较大的可变性。这种评估凸显了关于在医学数据上获取具有误导性的交叉验证结果的危害，并展示了在拥有多源数据的情况下如何减轻这些问题。

Mar, 2024