揭开机器学习驱动科学中的过度乐观和出版偏见
通过调查 ML 方法在 17 个领域中被广泛采用的文献,我们系统地调查了 ML 方法在科学研究中的可重复性问题,并发现数据泄漏确实是一个普遍存在的问题,并提出了模型信息表来报告基于 ML 模型的科学主张,以便在发布前发现泄漏情况,并进行了模拟实验,发现所有声称复杂的 ML 模型在文献中都未能复制,并且与几十年前的 Logistic 回归模型相比,复杂的 ML 模型并没有表现出更好的效果。
Jul, 2022
本研究旨在检查现有知识中关于机器学习模型中的偏见和不公平的研究,并识别减弱算法不公平和偏差的方法、公平性度量和支持工具。经过系统文献综述,发现了 40 篇可用于 Scopus、IEEE Xplore, Web of Science 和 Google Scholar 知识库的文章。结果表明,针对 ML 技术的多种偏见和不公平检测与减轻方法,在文献中定义了明确的度量标准,可以突出不同的度量标准。因此建议进一步研究,以定义在每种情况下应采用的技术和指标,以标准化并确保机器学习模型的公正性,从而允许最适当的度量标准来检测偏见和不公平。
Feb, 2022
机器学习算法应用广泛,但也可能存在偏见和不公平。本研究提出了一种刻画数据偏见的分类法,并探究了算法的不公平和精度之间的权衡。实证研究表明,在不同的数据偏见设置下,算法的公平性和精度会受到不同的影响,而简单的预处理干预技术可以提高算法的公平性。
Jul, 2022
本文通过理论证明和实验证明,在可实现的二元分类问题下,当数据由逻辑模型生成且样本量远大于参数个数时,对数回归具有固有的过度自信及其原因。作者还证明,存在其它激活函数和合适的损失函数,使得学习的分类器在某些概率值附近表现不足。
Feb, 2021
机器学习(ML)提供了强大的预测建模工具,然而,如果不正确实施和评估,ML 流程可能会出现泄漏问题,导致过于乐观的性能估计并且无法泛化到新数据,本文旨在拓展对于在设计、实施和评估 ML 流程中导致泄漏的原因的理解,以具体示例说明,提供了各种类型的泄漏的综合概述和讨论。
Nov, 2023
使用机器学习来减少公平性差异和确保准确性在真实世界中的平衡是政策制定者关注的问题,本文通过实证研究发现,在教育、心理健康、刑事司法和住房安全等领域中使用后期处理措施来解决公平性问题,能够显著提高公平性而不牺牲准确性,实现在政策中使用机器学习的目的。
Dec, 2020