学习软件性能时,配置编码是否重要?编码方案的实证研究
在一个来自 OpenML 仓库的大规模分类问题样本中,通过对实验数据拟合线性混合效应模型,我们发现在多类别任务中,独热编码和 Helmert 对比编码优于基于目标的编码器。在二分类任务中,不同的编码方案之间没有显著差异;然而,独热编码对结果有一定积极影响。重要的是,我们发现编码方案与分类特征的特性之间没有显著交互作用,这说明我们的发现适用于不同领域的各种问题。
Dec, 2023
通过检查不同的编码技术对实体和上下文嵌入的影响,本研究的目标是挑战常用的顺序编码在表格学习中的应用。通过应用不同的预处理方法和网络架构在几个数据集上,得出了编码器对网络学习结果的影响的基准。通过保持测试、验证和训练数据的一致性,结果表明顺序编码在预处理数据和随后正确分类目标变量方面对于分类数据来说并不是最合适的编码器。通过计算相似度矩阵作为网络输入,基于字符串相似性对特征进行编码可以取得更好的结果。无论是实体还是上下文嵌入,变压器架构在顺序编码和相似度编码方面都表现出了改进的多标签分类任务性能。
Mar, 2024
本研究对 14 种编码器以及八种常见机器学习模型在 28 个数据集上进行了全面的实验评估,发现了不同编码器在不同情境下的最佳选择,并为数据科学家在欺诈检测、疾病诊断等领域提供了选择合适编码器的指导。
Jan, 2024
本研究提出了一种将目标嵌入到低维空间以提高神经网络收敛速度的方法,其中采用随机投影技术以零计算成本提高了收敛速度,并使用归一化的特征值表示类流形以提高编码的准确性。实验证明该方法能显著提高 CIFAR-100、CUB200-2011、Imagenet 和 MIT Places 数据集上的神经网络收敛速度和准确率。
Jun, 2018
本文基于机器学习算法对分类变量进行编码技术探究,通过对比不同编码策略和算法的实验结果,发现对训练数据中的特征进行正则化后的目标编码技术能够提供最好的结果,并且传统编码技术在部分情况下不如目标编码技术。
Apr, 2021
本文在四个软件系统中进行了实验研究,以了解何时在性能建模中应用迁移学习有益。 结果表明,在环境变化较小的情况下,我们可以通过对性能模型应用线性变换来理解目标环境的性能行为,而在环境变化严重的情况下,我们只能迁移使采样更有效的知识,例如通过降低配置空间的维数。
Sep, 2017
研究探究特征编码技术对可解释人工智能算法的影响,发现在恶意软件分类数据集中,使用 One Hot Encoding(OHE)方法相对于使用 Label Encoding(LE)方法,虽然性能略差,但它提供了更详细的解释,深入探索全局和局部上下文的细节,方便提供更全面的答案。此外,使用 OHE 的说明文件更小,分析人员的分析时间也更少。
Jul, 2023
提出使用 binary-encoded labels 来进行回归问题,该方法可以通过利用二进制分类算法来提高准确性并具有误差校正功能,与其它专门化方法和直接回归方法相比较,有更低的误差
Dec, 2022
这篇研究论文是迄今为止最全面的分类编码器基准测试,包括对来自不同家族的 32 种配置的编码器进行的广泛评估,36 种实验因素的组合以及 50 个数据集的测试。研究显示数据集选择、实验因素和汇总策略对基准测试的结论产生了深远影响,而这些方面在以往的编码器基准测试中被忽视。
Jul, 2023
本文提出了一种算法,用于实现神经网络模型输入数据的分类特征的二进制编码,同时在前向传播和反向传播过程中实施变化,以实现模型权重的变化,这些变化是由神经网络学习过程对某个特征类别的某些数据实例而导致的,只会影响该特征类别的输入数据实例的前向传播计算,这类似于使用 one-hot 编码处理分类特征的情况。
Nov, 2023