学习软件性能时，配置编码是否重要？编码方案的实证研究

Mar, 2022

学习软件性能时，配置编码是否重要？编码方案的实证研究

Does Configuration Encoding Matter in Learning Software Performance? An Empirical Study on Encoding Schemes

Jingzhi Gong, Tao Chen

TL;DR本文对配置软件系统的不同编码方式进行了实证比较，研究发现 one-hot 编码通常导致最准确的结果，而 scaled label 编码通常会在不同模型的准确性上表现较弱。此外，scaled label 编码往往会导致最快的训练时间，而 one-hot 编码则最慢。

Abstract

Learning and predicting the performance of a configurable software system helps to provide better quality assurance. One important engineering decision therein is how to encode the configuration into the model built. Despite the presence of different →

configurable software system performance learning encoding schemes scaled label encoding one-hot encoding

发现论文，激发创造

编码分类数据：除了一位有效编码，还有更热门的编码方式吗？

在一个来自 OpenML 仓库的大规模分类问题样本中，通过对实验数据拟合线性混合效应模型，我们发现在多类别任务中，独热编码和 Helmert 对比编码优于基于目标的编码器。在二分类任务中，不同的编码方案之间没有显著差异；然而，独热编码对结果有一定积极影响。重要的是，我们发现编码方案与分类特征的特性之间没有显著交互作用，这说明我们的发现适用于不同领域的各种问题。

Dec, 2023

表格式学习：实体和上下文嵌入的编码

通过检查不同的编码技术对实体和上下文嵌入的影响，本研究的目标是挑战常用的顺序编码在表格学习中的应用。通过应用不同的预处理方法和网络架构在几个数据集上，得出了编码器对网络学习结果的影响的基准。通过保持测试、验证和训练数据的一致性，结果表明顺序编码在预处理数据和随后正确分类目标变量方面对于分类数据来说并不是最合适的编码器。通过计算相似度矩阵作为网络输入，基于字符串相似性对特征进行编码可以取得更好的结果。无论是实体还是上下文嵌入，变压器架构在顺序编码和相似度编码方面都表现出了改进的多标签分类任务性能。

Mar, 2024

分类和回归任务中分类变量编码器性能的比较研究

本研究对 14 种编码器以及八种常见机器学习模型在 28 个数据集上进行了全面的实验评估，发现了不同编码器在不同情境下的最佳选择，并为数据科学家在欺诈检测、疾病诊断等领域提供了选择合适编码器的指导。

Jan, 2024

超越 One-hot 编码：低维目标嵌入

本研究提出了一种将目标嵌入到低维空间以提高神经网络收敛速度的方法，其中采用随机投影技术以零计算成本提高了收敛速度，并使用归一化的特征值表示类流形以提高编码的准确性。实验证明该方法能显著提高 CIFAR-100、CUB200-2011、Imagenet 和 MIT Places 数据集上的神经网络收敛速度和准确率。

Jun, 2018

正则化目标编码在具有高基数特征的监督式机器学习中优于传统方法

本文基于机器学习算法对分类变量进行编码技术探究，通过对比不同编码策略和算法的实验结果，发现对训练数据中的特征进行正则化后的目标编码技术能够提供最好的结果，并且传统编码技术在部分情况下不如目标编码技术。

Apr, 2021

可配置系统性能建模的迁移学习：探索性分析

本文在四个软件系统中进行了实验研究，以了解何时在性能建模中应用迁移学习有益。结果表明，在环境变化较小的情况下，我们可以通过对性能模型应用线性变换来理解目标环境的性能行为，而在环境变化严重的情况下，我们只能迁移使采样更有效的知识，例如通过降低配置空间的维数。

Sep, 2017

特征编码对恶意软件分类可解释性的影响

研究探究特征编码技术对可解释人工智能算法的影响，发现在恶意软件分类数据集中，使用 One Hot Encoding（OHE）方法相对于使用 Label Encoding（LE）方法，虽然性能略差，但它提供了更详细的解释，深入探索全局和局部上下文的细节，方便提供更全面的答案。此外，使用 OHE 的说明文件更小，分析人员的分析时间也更少。

Jul, 2023

回归网络的标签编码

提出使用 binary-encoded labels 来进行回归问题，该方法可以通过利用二进制分类算法来提高准确性并具有误差校正功能，与其它专门化方法和直接回归方法相比较，有更低的误差

Dec, 2022

二分类问题的分类编码器基准

这篇研究论文是迄今为止最全面的分类编码器基准测试，包括对来自不同家族的 32 种配置的编码器进行的广泛评估，36 种实验因素的组合以及 50 个数据集的测试。研究显示数据集选择、实验因素和汇总策略对基准测试的结论产生了深远影响，而这些方面在以往的编码器基准测试中被忽视。

Jul, 2023

神经网络模型中一种替代的独热编码方法

本文提出了一种算法，用于实现神经网络模型输入数据的分类特征的二进制编码，同时在前向传播和反向传播过程中实施变化，以实现模型权重的变化，这些变化是由神经网络学习过程对某个特征类别的某些数据实例而导致的，只会影响该特征类别的输入数据实例的前向传播计算，这类似于使用 one-hot 编码处理分类特征的情况。

Nov, 2023