特征编码对恶意软件分类可解释性的影响
在一个来自 OpenML 仓库的大规模分类问题样本中,通过对实验数据拟合线性混合效应模型,我们发现在多类别任务中,独热编码和 Helmert 对比编码优于基于目标的编码器。在二分类任务中,不同的编码方案之间没有显著差异;然而,独热编码对结果有一定积极影响。重要的是,我们发现编码方案与分类特征的特性之间没有显著交互作用,这说明我们的发现适用于不同领域的各种问题。
Dec, 2023
本研究对 14 种编码器以及八种常见机器学习模型在 28 个数据集上进行了全面的实验评估,发现了不同编码器在不同情境下的最佳选择,并为数据科学家在欺诈检测、疾病诊断等领域提供了选择合适编码器的指导。
Jan, 2024
使用深度学习模型从二进制数据中自动学习特征表征,在对恶意软件分类中取得了一定的成果,同时探索了训练数据规模和正则化等因素对分类器性能的影响。
Mar, 2019
本文对配置软件系统的不同编码方式进行了实证比较,研究发现 one-hot 编码通常导致最准确的结果,而 scaled label 编码通常会在不同模型的准确性上表现较弱。此外,scaled label 编码往往会导致最快的训练时间,而 one-hot 编码则最慢。
Mar, 2022
本文基于机器学习算法对分类变量进行编码技术探究,通过对比不同编码策略和算法的实验结果,发现对训练数据中的特征进行正则化后的目标编码技术能够提供最好的结果,并且传统编码技术在部分情况下不如目标编码技术。
Apr, 2021
本文介绍了一种新的可解释卷积神经网络(XCNN),能够表示视觉刺激的重要和驱动特征,并提供了无需本地化标签和额外后处理步骤的热图生成。在多个数据集上的实验证明了 XCNN 的成功,验证了其在类别特定特征表示和可解释热图生成方面的性能优于当前算法,同时提供了简单灵活的网络结构,为提高可解释的弱监督定位和语义分割奠定了基础。
Jun, 2020
本文介绍了车辆索赔数据集,并提出用于表示分类属性的 GEL 编码和嵌入层。通过比较标签,One Hot 编码,GEL 编码和嵌入层,在标记,重建错误,密度估计和对比学习方法上,评估了该数据集的浅层和深度学习方法。
Oct, 2022
通过检查不同的编码技术对实体和上下文嵌入的影响,本研究的目标是挑战常用的顺序编码在表格学习中的应用。通过应用不同的预处理方法和网络架构在几个数据集上,得出了编码器对网络学习结果的影响的基准。通过保持测试、验证和训练数据的一致性,结果表明顺序编码在预处理数据和随后正确分类目标变量方面对于分类数据来说并不是最合适的编码器。通过计算相似度矩阵作为网络输入,基于字符串相似性对特征进行编码可以取得更好的结果。无论是实体还是上下文嵌入,变压器架构在顺序编码和相似度编码方面都表现出了改进的多标签分类任务性能。
Mar, 2024
本文使用可解释人工智能(XAI)方法分析 COVID 患者死亡率的社会经济差异,建立了一个基于匿名的奥斯汀地区医院数据集的 XGBoost 预测模型,应用了两种 XAI 方法(Shapley 可加性解释和局部可解释模型无关解释)比较特征重要性的全局与局部解释,发现特别关注医疗保险、年龄和性别等特征对死亡预测影响较大。本研究表明了使用 XAI 方法进行特征归因交叉验证的重要性。
Feb, 2023
这篇论文提出了一种通过不可逆编码实现数据民主化的方案,能在不违反医疗数据和临床模型的隐私约束条件下,保证编码数据能够保留原始数据的语义以有效地训练深度学习模型,并减少模型的信息泄漏。
May, 2023