神经网络模型中一种替代的独热编码方法

Nov, 2023

神经网络模型中一种替代的独热编码方法

An alternative for one-hot encoding in neural network models

Lazar Zlatić

TL;DR本文提出了一种算法，用于实现神经网络模型输入数据的分类特征的二进制编码，同时在前向传播和反向传播过程中实施变化，以实现模型权重的变化，这些变化是由神经网络学习过程对某个特征类别的某些数据实例而导致的，只会影响该特征类别的输入数据实例的前向传播计算，这类似于使用 one-hot 编码处理分类特征的情况。

Abstract

This paper proposes an algorithm that implements binary encoding of the categorical features of →

algorithm binary encoding categorical features neural network model forward and backpropagation

发现论文，激发创造

编码分类数据：除了一位有效编码，还有更热门的编码方式吗？

在一个来自 OpenML 仓库的大规模分类问题样本中，通过对实验数据拟合线性混合效应模型，我们发现在多类别任务中，独热编码和 Helmert 对比编码优于基于目标的编码器。在二分类任务中，不同的编码方案之间没有显著差异；然而，独热编码对结果有一定积极影响。重要的是，我们发现编码方案与分类特征的特性之间没有显著交互作用，这说明我们的发现适用于不同领域的各种问题。

Dec, 2023

分类和回归任务中分类变量编码器性能的比较研究

本研究对 14 种编码器以及八种常见机器学习模型在 28 个数据集上进行了全面的实验评估，发现了不同编码器在不同情境下的最佳选择，并为数据科学家在欺诈检测、疾病诊断等领域提供了选择合适编码器的指导。

Jan, 2024

朴素贝叶斯分类器和分类变量的一位有效编码

通过错误地将一个 $K$ 值分类变量编码为 $K$ 位二进制数，将其用于朴素贝叶斯分类器，本文研究了这种编码方式的后果，从而得出了一个伯努利乘积（PoB）假设，而不是正确的分类朴素贝叶斯分类器。通过数学和实验分析了两种分类器之间的差异。在从狄利克雷分布中抽取的概率向量实验中，大多数情况下，这两种分类器在最大后验类标签上达成一致，尽管 PoB 情况下的后验概率通常更大。

Apr, 2024

二分类问题的分类编码器基准

这篇研究论文是迄今为止最全面的分类编码器基准测试，包括对来自不同家族的 32 种配置的编码器进行的广泛评估，36 种实验因素的组合以及 50 个数据集的测试。研究显示数据集选择、实验因素和汇总策略对基准测试的结论产生了深远影响，而这些方面在以往的编码器基准测试中被忽视。

Jul, 2023

正则化目标编码在具有高基数特征的监督式机器学习中优于传统方法

本文基于机器学习算法对分类变量进行编码技术探究，通过对比不同编码策略和算法的实验结果，发现对训练数据中的特征进行正则化后的目标编码技术能够提供最好的结果，并且传统编码技术在部分情况下不如目标编码技术。

Apr, 2021

超越 One-hot 编码：低维目标嵌入

本研究提出了一种将目标嵌入到低维空间以提高神经网络收敛速度的方法，其中采用随机投影技术以零计算成本提高了收敛速度，并使用归一化的特征值表示类流形以提高编码的准确性。实验证明该方法能显著提高 CIFAR-100、CUB200-2011、Imagenet 和 MIT Places 数据集上的神经网络收敛速度和准确率。

Jun, 2018

回归网络的标签编码

提出使用 binary-encoded labels 来进行回归问题，该方法可以通过利用二进制分类算法来提高准确性并具有误差校正功能，与其它专门化方法和直接回归方法相比较，有更低的误差

Dec, 2022

基于产品的神经网络用于用户响应预测

本文提出了一种基于产品的神经网络模型（PNN），通过嵌入层来学习分类数据的分布式表示，通过乘积层来捕获领域之间的互动模式，并进一步完全连接的层来探索高阶特征交互，实验证明在两个大规模实际广告点击数据集上，PNN 模型在各种指标上都优于现有的基准模型。

Nov, 2016

深度神经网络分类器中潜在二进制编码的出现

相关研究通过在深度神经网络分类器的潜在空间中引入线性倒数第二层进行训练，其中损失函数随着潜在空间中坐标的平方指数增长，促使了二进制编码的出现。这种现象是神经坍缩的一个特定实例，它在训练的最后阶段出现，导致潜在类均值崩溃到等角紧框图的顶点。我们展示了二进制编码加速收敛到等角紧框图并提高分类准确度的效果。

Oct, 2023

分类变量的实体嵌入

本文介绍了如何将分类变量映射为欧氏空间中的实体嵌入，通过在标准监督训练过程中让神经网络进行学习。实体嵌入不仅可以减少内存使用和加速神经网络，更重要的是通过将相似的值映射到嵌入空间中靠近的位置，揭示了分类变量的内在属性，并帮助神经网络在稀疏且统计学未知的数据集上更好地泛化，因此在具有许多高基数特征的数据集上尤其有用，并且可以用于可视化分类数据和数据聚类。

Apr, 2016