神经网络模型中一种替代的独热编码方法
在一个来自 OpenML 仓库的大规模分类问题样本中,通过对实验数据拟合线性混合效应模型,我们发现在多类别任务中,独热编码和 Helmert 对比编码优于基于目标的编码器。在二分类任务中,不同的编码方案之间没有显著差异;然而,独热编码对结果有一定积极影响。重要的是,我们发现编码方案与分类特征的特性之间没有显著交互作用,这说明我们的发现适用于不同领域的各种问题。
Dec, 2023
本研究对 14 种编码器以及八种常见机器学习模型在 28 个数据集上进行了全面的实验评估,发现了不同编码器在不同情境下的最佳选择,并为数据科学家在欺诈检测、疾病诊断等领域提供了选择合适编码器的指导。
Jan, 2024
通过错误地将一个 $K$ 值分类变量编码为 $K$ 位二进制数,将其用于朴素贝叶斯分类器,本文研究了这种编码方式的后果,从而得出了一个伯努利乘积(PoB)假设,而不是正确的分类朴素贝叶斯分类器。通过数学和实验分析了两种分类器之间的差异。在从狄利克雷分布中抽取的概率向量实验中,大多数情况下,这两种分类器在最大后验类标签上达成一致,尽管 PoB 情况下的后验概率通常更大。
Apr, 2024
这篇研究论文是迄今为止最全面的分类编码器基准测试,包括对来自不同家族的 32 种配置的编码器进行的广泛评估,36 种实验因素的组合以及 50 个数据集的测试。研究显示数据集选择、实验因素和汇总策略对基准测试的结论产生了深远影响,而这些方面在以往的编码器基准测试中被忽视。
Jul, 2023
本文基于机器学习算法对分类变量进行编码技术探究,通过对比不同编码策略和算法的实验结果,发现对训练数据中的特征进行正则化后的目标编码技术能够提供最好的结果,并且传统编码技术在部分情况下不如目标编码技术。
Apr, 2021
本研究提出了一种将目标嵌入到低维空间以提高神经网络收敛速度的方法,其中采用随机投影技术以零计算成本提高了收敛速度,并使用归一化的特征值表示类流形以提高编码的准确性。实验证明该方法能显著提高 CIFAR-100、CUB200-2011、Imagenet 和 MIT Places 数据集上的神经网络收敛速度和准确率。
Jun, 2018
提出使用 binary-encoded labels 来进行回归问题,该方法可以通过利用二进制分类算法来提高准确性并具有误差校正功能,与其它专门化方法和直接回归方法相比较,有更低的误差
Dec, 2022
本文提出了一种基于产品的神经网络模型(PNN),通过嵌入层来学习分类数据的分布式表示,通过乘积层来捕获领域之间的互动模式,并进一步完全连接的层来探索高阶特征交互,实验证明在两个大规模实际广告点击数据集上,PNN 模型在各种指标上都优于现有的基准模型。
Nov, 2016
相关研究通过在深度神经网络分类器的潜在空间中引入线性倒数第二层进行训练,其中损失函数随着潜在空间中坐标的平方指数增长,促使了二进制编码的出现。这种现象是神经坍缩的一个特定实例,它在训练的最后阶段出现,导致潜在类均值崩溃到等角紧框图的顶点。我们展示了二进制编码加速收敛到等角紧框图并提高分类准确度的效果。
Oct, 2023
本文介绍了如何将分类变量映射为欧氏空间中的实体嵌入,通过在标准监督训练过程中让神经网络进行学习。实体嵌入不仅可以减少内存使用和加速神经网络,更重要的是通过将相似的值映射到嵌入空间中靠近的位置,揭示了分类变量的内在属性,并帮助神经网络在稀疏且统计学未知的数据集上更好地泛化,因此在具有许多高基数特征的数据集上尤其有用,并且可以用于可视化分类数据和数据聚类。
Apr, 2016