后选择和深度学习中的不端行为
本论文阐述了深度学习中的两项不当行为 —— 数据删除和训练集上测试,指出这样的行为会导致性能数据被虚高;提出了一种名为 Nearest Neighbor With Threshold 的简单分类方法,证明该方法使用上述不当行为在拥有有限但无界存储空间和训练时间的情况下,在任何验证集和测试集上都可以达到零误差,但深度学习方法普遍无法通过真实测试集进行检验,证据超出了本文的范围。
Aug, 2022
通过研究我们发现,在机器学习模型的性能评估中,交叉验证方法会引入分布偏差现象,导致性能评估及超参数优化受到负面影响。为了解决这个问题,我们提出了一个通用的校正分布偏差的交叉验证方法,并通过合成模拟和多个已发布的实验验证结果。
Jun, 2024
本论文开展了第一次大规模实证研究,全面比较了现有最先进的公平性改进技术的性能,结果显示不同方法在不同数据集和敏感属性上表现存在较大差异,且不同的公平评估指标产生显著不同的评估结果,其中预处理方法和内处理方法优于后处理方法,预处理方法表现最佳,本研究为深度学习模型公平性提供了全面的建议。
Jan, 2024
通过对包含图像和表格数据的多样化数据集进行实证评估,该研究对 18 种基线模型进行基准测试,比较了它们在选择错误率、实证覆盖率、被拒绝实例类别分布以及在分布外实例上的性能等多个方面的表现,结果显示没有一个明确的最佳方法,最好的方法取决于用户的目标。
Jan, 2024
利用自信学习算法和众包验证方法发现了 10 个常用计算机视觉、自然语言和音频数据集的测试集中的标签错误问题,并探讨了这些标签错误对基准结果的影响以及建议应该使用经过正确标注的测试集来评估模型的有效性,对于高比例的标记错误的现实世界数据集,低容量的模型可能比高容量的模型更实用。
Mar, 2021
本文探讨了机器学习研究中存在的反复假设问题、负面结果的报道和算法的泛化能力。此外,从算法决策的责任、公正、道德和隐私保护的角度讨论了机器学习研究和发展的前景。
Apr, 2019
在这项研究中,我们对多源数据环境下的标准 K 折交叉验证和留源交叉验证方法进行了系统的实证评估,考虑了基于心电图的心血管疾病分类任务,并将 PhysioNet CinC Challenge 2021 和山东省医院的公开可用数据集进行了整合和协调。我们的结果表明,无论是单一源数据还是多源数据上的 K 折交叉验证都会在目标是推广到新的数据源时系统地高估预测性能。留源交叉验证提供了更可靠的性能估计,具有接近零的偏差但较大的可变性。这种评估凸显了关于在医学数据上获取具有误导性的交叉验证结果的危害,并展示了在拥有多源数据的情况下如何减轻这些问题。
Mar, 2024