Dec, 2023

编码分类数据:除了一位有效编码,还有更热门的编码方式吗?

TL;DR在一个来自 OpenML 仓库的大规模分类问题样本中,通过对实验数据拟合线性混合效应模型,我们发现在多类别任务中,独热编码和 Helmert 对比编码优于基于目标的编码器。在二分类任务中,不同的编码方案之间没有显著差异;然而,独热编码对结果有一定积极影响。重要的是,我们发现编码方案与分类特征的特性之间没有显著交互作用,这说明我们的发现适用于不同领域的各种问题。