基于分类模型的面向学习的DLP系统

Dec, 2023

基于分类模型的面向学习的DLP系统

A Learning oriented DLP System based on Classification Model

Kishu Gupta, Ashwani Kush

TL;DR该研究论文提出了一种统计数据泄漏预防模型，利用统计分析、文档分类以及机器学习等方法，采用TF-IDF（词频-逆文档频率）等流行的术语计数/权重函数，引入了IGBCA（改进的梯度提升分类算法）作为一种高效精确的文档分类方法，可防止数据泄漏和信息丢失。

Abstract

Data is the key asset for organizations and data sharing is lifeline for organization growth; which may lead to data loss. Data leakage is the most critical issue being faced by organizations. In order to mitigate the data leakage issues data leakage prevention systems (DLPSs) are depl

发现论文，激发创造

采用Dempster-Shafer方法进行数据分类

本研究采用Dempster-Shafer方法作为理论基础来创建数据分类系统，在测试了三个流行的（多属性）基准数据集以及选择正确的属性进行组合后，运用Dempster的组合规则对每个数据项的概率进行组合分类并达到了非常高的分类准确率。

Sep, 2014

HAPSSA: 使用信号和统计分析的全面PDF恶意软件检测方法

本文提出一种全面且简单的基于信号和统计分析的方法，以检测PDF恶意软件，采用分别从不同静态和动态恶意软件检测方法中选择的正交特征空间模型进行结合，以实现检测恶意代码混淆的鲁棒性。使用近3万个PDF文件数据集，我们证明该方法保持高检测率（99.92％），甚至检测到由恶意软件作者进行的混淆的新的恶意文件，并且是大多数防病毒软件无法检测到的。

Nov, 2021

文本分类中的隐私泄露问题：一种数据提取方法

对于文本分类模型，从生成型语言模型中提取训练数据的可行性存在争议，提出了一种利用模型评价概率的算法来提取部分文本的缺失标记，以研究文本分类能否不小心记忆到与学习任务无关的训练数据并评估未经同意使用个人数据的审计策略。

Jun, 2022

透过作者分类进行文档来源和认证

本文提出了一个基于集成的文本处理框架，用于单作者和多作者文档的分类，并通过多种权重优化和选择方法来分配基于优点的权重，可以用于文本风格分析中的关键任务。在干净和非干净数据上进行了实验，并在大规模基准数据集上进行了评估，显著提高了现有解决方案的性能。

Mar, 2023

使用RVL-CDIP评估文档分类

揭示了RVL-CDIP标准存在标签误差、多标签问题、测试和训练数据重复、存在敏感信息等问题，并建议建立一个新的文件分类基准。

Jun, 2023

基于预测的数据安全DLP方法

敏感数据泄露是当前企业面临的主要问题之一，本研究提出了一种基于数据统计分析的数据泄露预测和访问权限控制的数据泄露防护解决方案。研究结果表明，该方法具有较高的精确度，在极端数据访问情况下，能够正确地对用户进行分类。

Dec, 2023

基于LLM的隐私数据增强在医疗文本分类中以分布教师为引导的知识蒸馏

基于差分隐私的数据增强方法提供了隐私保护和文本分类在私有领域的测验。

Feb, 2024

分类模型中的数据痕迹：隐私问题及通过数据混淆的缓解

AI部署和安全隐私问题密不可分，该研究通过探索不同分类器的漏洞、减少漏洞分类器的漏洞性、研究数据混淆技术的隐私性能权衡等三个主要方面，旨在解决数据足迹带来的漏洞，提供了在不同情景和环境中选择分类器的有用结果。

Jul, 2024

DocXplain：一种新颖的面向文档图像分类的模型不可知解释方法

这篇论文介绍了一种新的模型无关的解释性方法，能够为文档图像分类任务生成可解释的特征归因图，通过对前景和背景特征进行独立分割，并消除这些元素来分配特征重要性，通过与其他方法的定量和定性分析，证明了该方法在忠实性和可解释性方面的优越性。

Jul, 2024

数据污染环境下的网络异常检测的深度学习：评估鲁棒性和减轻性能下降

本研究评估了六种无监督深度学习算法在数据污染下的鲁棒性，结果显示在污染数据下最先进的异常检测算法性能明显下降，强调了深度学习网络异常检测模型中自我保护机制的重要性。为了减轻这一漏洞，我们提出了一种增强的自动编码器，并限制其潜在表示，使正常数据在潜在空间中更密集地聚集在可学习中心周围。我们的评估结果表明，与现有方法相比，这种方法在面对数据污染时表现出更好的抵抗性，为实现更强大的网络异常检测系统提供了一个有希望的方向。

Jul, 2024