高基数类别变量数据的机器学习方法比较

Jul, 2023

高基数类别变量数据的机器学习方法比较

A Comparison of Machine Learning Methods for Data with High-Cardinality Categorical Variables

Fabio Sigrist

TL;DR本研究比较了在具有高基数分类变量的多种表格数据集上，随机效应的机器学习模型与其经典模型之间的预测精度，发现使用随机效应的决策树提升模型优于使用随机效应的深度神经网络模型。

Abstract

High-cardinality categorical variables are variables for which the number of different levels is large relative to the sample size of a data set, or in other words, there are few data points per level. machine learning methods can have difficulties with →

high-cardinality variables machine learning tree-boosting deep neural networks linear mixed effects models

发现论文，激发创造

正则化目标编码在具有高基数特征的监督式机器学习中优于传统方法

本文基于机器学习算法对分类变量进行编码技术探究，通过对比不同编码策略和算法的实验结果，发现对训练数据中的特征进行正则化后的目标编码技术能够提供最好的结果，并且传统编码技术在部分情况下不如目标编码技术。

Apr, 2021

面向计数数据的专业深度神经网络与高基数分类特征

提出一种新的层级似然学习框架，将伽马随机效应引入 Poisson 深度神经网络，以捕捉输入变量的非线性效应和主题特定的聚类效应，从而提高预测性能。该方法通过优化单一目标函数同时获得固定参数的最大似然估计值和随机效应的最佳无偏预测器，为处理包含高基数分类特征的聚类计数数据提供了一个快速端到端算法。并且，可以很容易地将最新的网络架构实施到提出的 h - 似然框架中，例如多头注意力层和稀疏最大函数，用于在高维环境中进行特征选择。为了提高实际性能和学习效率，还通过调整过程来预测随机参数，并使用矩量法估计方差分量进行预训练。各种实验研究和真实数据分析证实了我们提出方法的优势。

Oct, 2023

基于多场分类数据的深度学习：以用户响应预测为例研究

本文提出两种使用深度神经网络来预测用户响应的新模型，通过三种特征转换方法的借助，能够自动学习有效的分类特征交互模式，并对用户的广告点击进行预测。大规模的实验表明，我们的方法比现有主流模型更好。

Jan, 2016

分类和回归任务中分类变量编码器性能的比较研究

本研究对 14 种编码器以及八种常见机器学习模型在 28 个数据集上进行了全面的实验评估，发现了不同编码器在不同情境下的最佳选择，并为数据科学家在欺诈检测、疾病诊断等领域提供了选择合适编码器的指导。

Jan, 2024

分类变量的实体嵌入

本文介绍了如何将分类变量映射为欧氏空间中的实体嵌入，通过在标准监督训练过程中让神经网络进行学习。实体嵌入不仅可以减少内存使用和加速神经网络，更重要的是通过将相似的值映射到嵌入空间中靠近的位置，揭示了分类变量的内在属性，并帮助神经网络在稀疏且统计学未知的数据集上更好地泛化，因此在具有许多高基数特征的数据集上尤其有用，并且可以用于可视化分类数据和数据聚类。

Apr, 2016

基于机器学习的分类数据缺失值填充

本研究探讨了使用机器学习算法来预测和填补分类数据集中的缺失值，着重于采用纠错输出编码 (ECOC) 框架的集成模型，包括基于 SVM 和 KNN 的集成模型，以及结合了 SVM、KNN 和 MLP 模型的集成分类器。我们将这些算法应用于三个数据集：CPU 数据集、甲状腺机能减退数据集和乳腺癌数据集。我们的实验表明，机器学习算法能够在预测和填补缺失值方面取得良好的性能，但具体的数据集和缺失值模式可能会有所不同。基于 ECOC 框架的集成模型在提高预测的准确性和鲁棒性方面特别有效，但使用深度学习进行缺失值填补也存在挑战和局限性，包括需要大量标记数据和可能出现过拟合的问题。需要进一步研究深度学习算法在缺失值填补方面的有效性和效率，并制定应对可能出现的挑战和限制的策略。

Jun, 2023

表格数据：关注力是您所需的全部吗？

通过对大规模的实证研究，本文发现神经网络在结构化表格数据上与决策树具有竞争力，而基于变压器的架构在表格数据集上并不能超过传统 MLP 架构的简化版本。这些发现有助于研究和实践社区在未来的表格数据应用中做出明智的选择。

Feb, 2024

树状模型在表格数据上为何仍然优于深度学习？

通过与传统树模型如 XGBoost 和随机森林的对比，研究发现，对于中等大小数据集（约 10K 个样本），树模型仍然是当前在表格数据上的最佳选择；研究还提出了神经网络在表格数据上建模的若干挑战，并为后续研究提供基准测试数据和计算资源。

Jul, 2022

混合变量受限玻尔兹曼机

本文介绍了一种用于混合变量的 Restricted Boltzmann Machines 模型，可以同时建模多种类型和多样性的变量，并使用潜在二进制变量对变量之间的依赖性进行建模，支持在许多常见任务中使用，包括预处理、分类、回归和数据补全，同时在一个大规模数据集上进行了实验验证。

Aug, 2014

Hi-CI: 高维度深度因果推断

本文提出了一种名为 Hi-CI 的深度神经网络算法，可以使用因果推断 (CI) 从高纬度协变量和高基数处理中进行反事实回归，并通过使用去相关网络和结果预测网络解决混淆偏差问题，最后展示了该算法在合成和真实数据集上的有效性。

Aug, 2020