目标变量工程
本文基于机器学习算法对分类变量进行编码技术探究,通过对比不同编码策略和算法的实验结果,发现对训练数据中的特征进行正则化后的目标编码技术能够提供最好的结果,并且传统编码技术在部分情况下不如目标编码技术。
Apr, 2021
本文介绍了一种用于多目标回归的集成方法,通过现有目标的随机线性组合构建新的目标变量,并与 RAkEL 和一系列最新的多标签分类算法进行比较。在 12 个多目标数据集上的实验证明,该方法表现显著优于单一模型方法和随机森林方法。
Apr, 2014
研究神经网络对回归问题的解决方法,针对两层 ReLU 网络探索了梯度优化引起偏差的一些现象,提出了一种新的支持度计算方法,得出实验证据,阐述了广义梯度下降和平方损失函数在训练中的优化困难。
Nov, 2022
通过模拟对比机器学习算法的整个基准测试过程,我们发现数据采样、参数初始化和超参数选择对结果的影响显著。进一步分析今天所用的主要比较方法,我们提出一种反直觉的结果,即在不增加计算成本的情况下,将更多的变化源添加到不完美的估计器中可以接近更理想的估计器。通过五个不同的深度学习任务和架构,分析改进检测错误率,提出了性能比较的建议。
Mar, 2021
通过建立多目标多重性理论框架,研究预测模型中目标变量选择对不同个体的结果和不同群体之间选择率差异的影响,涉及研究多元目标选择、公平性和预测倍数等方面。
Jun, 2023
本研究对 14 种编码器以及八种常见机器学习模型在 28 个数据集上进行了全面的实验评估,发现了不同编码器在不同情境下的最佳选择,并为数据科学家在欺诈检测、疾病诊断等领域提供了选择合适编码器的指导。
Jan, 2024
机器学习在医疗保健中的偏见通常源于代表性或不完整的数据,以及潜在的健康差异。本文发现了影响机器学习预测工具的临床实用性的更普遍的偏见来源:目标规范偏见。目标规范偏见发生在目标变量的操作化与决策者对其定义的不匹配时,这种不匹配常常是微妙的,源于决策者通常对反事实的医疗场景的预测结果感兴趣,而不是实际情况。目标规范偏见独立于数据限制和健康差异。如果不进行修正,它会导致预测准确度的高估,医疗资源的低效利用以及对患者有害的次优决策。计量学中的最新研究提出了抵消目标规范偏见的方法,并避免其有害后果。
Aug, 2023
本文分析了预期验证性能的三个统计估计方法在计算预算方面的效果,并在合成和现实情况下对三个估计器进行评估。其中,无偏估计器具有最高方差,方差最小的估计器具有最大的偏差;最小均方误差的估计器在偏差和方差之间取得了平衡,呈现出经典的偏差 - 方差权衡。我们使用预期验证性能来比较不同模型,并分析每个估计器导致选择哪个模型表现最佳的错误数量。我们发现两个有偏估计器导致最少的错误结论,这提示了最小化方差和均方误差的重要性。
Oct, 2021