基于分类模型的面向学习的DLP系统
本研究采用Dempster-Shafer方法作为理论基础来创建数据分类系统,在测试了三个流行的(多属性)基准数据集以及选择正确的属性进行组合后,运用Dempster的组合规则对每个数据项的概率进行组合分类并达到了非常高的分类准确率。
Sep, 2014
本文提出一种全面且简单的基于信号和统计分析的方法,以检测PDF恶意软件,采用分别从不同静态和动态恶意软件检测方法中选择的正交特征空间模型进行结合,以实现检测恶意代码混淆的鲁棒性。使用近3万个PDF文件数据集,我们证明该方法保持高检测率(99.92%),甚至检测到由恶意软件作者进行的混淆的新的恶意文件,并且是大多数防病毒软件无法检测到的。
Nov, 2021
对于文本分类模型,从生成型语言模型中提取训练数据的可行性存在争议,提出了一种利用模型评价概率的算法来提取部分文本的缺失标记,以研究文本分类能否不小心记忆到与学习任务无关的训练数据并评估未经同意使用个人数据的审计策略。
Jun, 2022
本文提出了一个基于集成的文本处理框架,用于单作者和多作者文档的分类,并通过多种权重优化和选择方法来分配基于优点的权重,可以用于文本风格分析中的关键任务。在干净和非干净数据上进行了实验,并在大规模基准数据集上进行了评估,显著提高了现有解决方案的性能。
Mar, 2023
敏感数据泄露是当前企业面临的主要问题之一,本研究提出了一种基于数据统计分析的数据泄露预测和访问权限控制的数据泄露防护解决方案。研究结果表明,该方法具有较高的精确度,在极端数据访问情况下,能够正确地对用户进行分类。
Dec, 2023
AI部署和安全隐私问题密不可分,该研究通过探索不同分类器的漏洞、减少漏洞分类器的漏洞性、研究数据混淆技术的隐私性能权衡等三个主要方面,旨在解决数据足迹带来的漏洞,提供了在不同情景和环境中选择分类器的有用结果。
Jul, 2024
这篇论文介绍了一种新的模型无关的解释性方法,能够为文档图像分类任务生成可解释的特征归因图,通过对前景和背景特征进行独立分割,并消除这些元素来分配特征重要性,通过与其他方法的定量和定性分析,证明了该方法在忠实性和可解释性方面的优越性。
Jul, 2024
本研究评估了六种无监督深度学习算法在数据污染下的鲁棒性,结果显示在污染数据下最先进的异常检测算法性能明显下降,强调了深度学习网络异常检测模型中自我保护机制的重要性。为了减轻这一漏洞,我们提出了一种增强的自动编码器,并限制其潜在表示,使正常数据在潜在空间中更密集地聚集在可学习中心周围。我们的评估结果表明,与现有方法相比,这种方法在面对数据污染时表现出更好的抵抗性,为实现更强大的网络异常检测系统提供了一个有希望的方向。
Jul, 2024