特征编码对恶意软件分类可解释性的影响

Jul, 2023

特征编码对恶意软件分类可解释性的影响

Impact of Feature Encoding on Malware Classification Explainability

Elyes Manai, Mohamed Mejri, Jaouhar Fattahi

TL;DR研究探究特征编码技术对可解释人工智能算法的影响，发现在恶意软件分类数据集中，使用 One Hot Encoding（OHE）方法相对于使用 Label Encoding（LE）方法，虽然性能略差，但它提供了更详细的解释，深入探索全局和局部上下文的细节，方便提供更全面的答案。此外，使用 OHE 的说明文件更小，分析人员的分析时间也更少。

Abstract

This paper investigates the impact of feature encoding techniques on the explainability of xai (Explainable Artificial Intelligence) algorithms. Using a →

feature encoding xai malware classification label encoding one hot encoding

发现论文，激发创造

编码分类数据：除了一位有效编码，还有更热门的编码方式吗？

在一个来自 OpenML 仓库的大规模分类问题样本中，通过对实验数据拟合线性混合效应模型，我们发现在多类别任务中，独热编码和 Helmert 对比编码优于基于目标的编码器。在二分类任务中，不同的编码方案之间没有显著差异；然而，独热编码对结果有一定积极影响。重要的是，我们发现编码方案与分类特征的特性之间没有显著交互作用，这说明我们的发现适用于不同领域的各种问题。

Dec, 2023

分类和回归任务中分类变量编码器性能的比较研究

本研究对 14 种编码器以及八种常见机器学习模型在 28 个数据集上进行了全面的实验评估，发现了不同编码器在不同情境下的最佳选择，并为数据科学家在欺诈检测、疾病诊断等领域提供了选择合适编码器的指导。

Jan, 2024

基于字节的深度神经网络用于恶意软件分类的激活分析

使用深度学习模型从二进制数据中自动学习特征表征，在对恶意软件分类中取得了一定的成果，同时探索了训练数据规模和正则化等因素对分类器性能的影响。

Mar, 2019

学习软件性能时，配置编码是否重要？编码方案的实证研究

本文对配置软件系统的不同编码方式进行了实证比较，研究发现 one-hot 编码通常导致最准确的结果，而 scaled label 编码通常会在不同模型的准确性上表现较弱。此外，scaled label 编码往往会导致最快的训练时间，而 one-hot 编码则最慢。

Mar, 2022

正则化目标编码在具有高基数特征的监督式机器学习中优于传统方法

本文基于机器学习算法对分类变量进行编码技术探究，通过对比不同编码策略和算法的实验结果，发现对训练数据中的特征进行正则化后的目标编码技术能够提供最好的结果，并且传统编码技术在部分情况下不如目标编码技术。

Apr, 2021

卷积网络中嵌入编码器解码器以实现可解释的 AI

本文介绍了一种新的可解释卷积神经网络（XCNN），能够表示视觉刺激的重要和驱动特征，并提供了无需本地化标签和额外后处理步骤的热图生成。在多个数据集上的实验证明了 XCNN 的成功，验证了其在类别特定特征表示和可解释热图生成方面的性能优于当前算法，同时提供了简单灵活的网络结构，为提高可解释的弱监督定位和语义分割奠定了基础。

Jun, 2020

用于审计数据的无监督异常检测及分类编码影响

本文介绍了车辆索赔数据集，并提出用于表示分类属性的 GEL 编码和嵌入层。通过比较标签，One Hot 编码，GEL 编码和嵌入层，在标记，重建错误，密度估计和对比学习方法上，评估了该数据集的浅层和深度学习方法。

Oct, 2022

表格式学习：实体和上下文嵌入的编码

通过检查不同的编码技术对实体和上下文嵌入的影响，本研究的目标是挑战常用的顺序编码在表格学习中的应用。通过应用不同的预处理方法和网络架构在几个数据集上，得出了编码器对网络学习结果的影响的基准。通过保持测试、验证和训练数据的一致性，结果表明顺序编码在预处理数据和随后正确分类目标变量方面对于分类数据来说并不是最合适的编码器。通过计算相似度矩阵作为网络输入，基于字符串相似性对特征进行编码可以取得更好的结果。无论是实体还是上下文嵌入，变压器架构在顺序编码和相似度编码方面都表现出了改进的多标签分类任务性能。

Mar, 2024

利用可解释性人工智能交叉验证 COVID-19 患者死亡率中的社会经济差异

本文使用可解释人工智能（XAI）方法分析 COVID 患者死亡率的社会经济差异，建立了一个基于匿名的奥斯汀地区医院数据集的 XGBoost 预测模型，应用了两种 XAI 方法（Shapley 可加性解释和局部可解释模型无关解释）比较特征重要性的全局与局部解释，发现特别关注医疗保险、年龄和性别等特征对死亡预测影响较大。本研究表明了使用 XAI 方法进行特征归因交叉验证的重要性。

Feb, 2023

面向医疗数据民主化与信息泄露预防的数据编码

这篇论文提出了一种通过不可逆编码实现数据民主化的方案，能在不违反医疗数据和临床模型的隐私约束条件下，保证编码数据能够保留原始数据的语义以有效地训练深度学习模型，并减少模型的信息泄漏。

May, 2023