目标变量工程

Oct, 2023

Target Variable Engineering

PDF

Jessica Clark

TL;DR数值预测与分类的性能比较研究，发现回归模型对于最佳性能需要更多计算努力，更受随机性和启发式选择的敏感性，而分类模型的改进则比回归模型小，为构建更可持续和强大的 AI 系统，需要在机器学习管道中提高可复制性和效率。

Abstract

How does the formulation of a target variable affect performance within the →

formulation target variable performance ml pipeline regression vs classification

发现论文，激发创造

正则化目标编码在具有高基数特征的监督式机器学习中优于传统方法

本文基于机器学习算法对分类变量进行编码技术探究，通过对比不同编码策略和算法的实验结果，发现对训练数据中的特征进行正则化后的目标编码技术能够提供最好的结果，并且传统编码技术在部分情况下不如目标编码技术。

Apr, 2021

随机线性目标组合多目标回归

本文介绍了一种用于多目标回归的集成方法，通过现有目标的随机线性组合构建新的目标变量，并与 RAkEL 和一系列最新的多标签分类算法进行比较。在 12 个多目标数据集上的实验证明，该方法表现显著优于单一模型方法和随机森林方法。

Apr, 2014

回归即分类：任务形式对神经网络特征的影响

研究神经网络对回归问题的解决方法，针对两层 ReLU 网络探索了梯度优化引起偏差的一些现象，提出了一种新的支持度计算方法，得出实验证据，阐述了广义梯度下降和平方损失函数在训练中的优化困难。

Nov, 2022

模型搜索科学化

本研究提出了一种元模型方法，支持自动化超参数优化，以取代手动调试，实现易复制和公正的优化过程，并在三个不同的计算机视觉问题上获得了最新的结果。

Sep, 2012

机器学习基准测试中方差的考虑

通过模拟对比机器学习算法的整个基准测试过程，我们发现数据采样、参数初始化和超参数选择对结果的影响显著。进一步分析今天所用的主要比较方法，我们提出一种反直觉的结果，即在不增加计算成本的情况下，将更多的变化源添加到不完美的估计器中可以接近更理想的估计器。通过五个不同的深度学习任务和架构，分析改进检测错误率，提出了性能比较的建议。

Mar, 2021

多目标复数性：资源有限情况下目标规定中的灵活性和公平性

通过建立多目标多重性理论框架，研究预测模型中目标变量选择对不同个体的结果和不同群体之间选择率差异的影响，涉及研究多元目标选择、公平性和预测倍数等方面。

Jun, 2023

分类和回归任务中分类变量编码器性能的比较研究

本研究对 14 种编码器以及八种常见机器学习模型在 28 个数据集上进行了全面的实验评估，发现了不同编码器在不同情境下的最佳选择，并为数据科学家在欺诈检测、疾病诊断等领域提供了选择合适编码器的指导。

Jan, 2024

超越分类的校准测试

这篇论文提出了第一个框架，统一了概率预测模型的校准评估和测试，并应用于分类和任意维度回归模型。

Oct, 2022

目标规范偏差、反事实预测和医疗算法公平性

机器学习在医疗保健中的偏见通常源于代表性或不完整的数据，以及潜在的健康差异。本文发现了影响机器学习预测工具的临床实用性的更普遍的偏见来源：目标规范偏见。目标规范偏见发生在目标变量的操作化与决策者对其定义的不匹配时，这种不匹配常常是微妙的，源于决策者通常对反事实的医疗场景的预测结果感兴趣，而不是实际情况。目标规范偏见独立于数据限制和健康差异。如果不进行修正，它会导致预测准确度的高估，医疗资源的低效利用以及对患者有害的次优决策。计量学中的最新研究提出了抵消目标规范偏见的方法，并避免其有害后果。

Aug, 2023

随机变量的最大值的预期验证性能和估计

本文分析了预期验证性能的三个统计估计方法在计算预算方面的效果，并在合成和现实情况下对三个估计器进行评估。其中，无偏估计器具有最高方差，方差最小的估计器具有最大的偏差；最小均方误差的估计器在偏差和方差之间取得了平衡，呈现出经典的偏差 - 方差权衡。我们使用预期验证性能来比较不同模型，并分析每个估计器导致选择哪个模型表现最佳的错误数量。我们发现两个有偏估计器导致最少的错误结论，这提示了最小化方差和均方误差的重要性。

Oct, 2021