文本数据深度学习异常检测方法
本文提出了一种将深度学习模型应用于文本异常检测的方法,使用两个独立的自我监督信号,在文本序列上引入了一个新的先决条件任务,并在 20Newsgroups 和 AG News 数据集上均取得了强大的定量和定性结果。
Apr, 2021
通过自我监督学习 Fine-tune Transformers,利用丢失作为异常分数,成功提升语义异常的 AUROC 分数 11.6%和句法异常的 22.8%。此外,所得到的最佳目标和学习表示因下游异常类型不同而异,且表示的可分离性对于检测语义异常更有效。
Apr, 2022
本文讨论了将异常和偏差检测方法应用于文本语料库,并针对相应挑战提出了采用分布语义的语言模型可在风险识别、预测建模和趋势分析等方面发挥重要作用。
Aug, 2019
这篇论文是关于基于 Transformer 的异常检测的综述,探讨了当前的挑战、Transformer 及其变种在异常检测中的原理、应用场景、数据集和评估指标,并对未来的研究趋势进行了全面分析。这是首篇集中研究 Transformer 在异常检测领域的综述,为对此感兴趣的研究者提供了详细的技术信息。
Feb, 2024
通过引入鲁棒自编码器集成方法,优化原始数据编码嵌入的局部鲁棒子空间恢复,利用 k 近邻的几何属性来优化子空间恢复,检测文本数据中的异常模式。通过实验设置以及详尽的实验结果评估表明,该鲁棒自编码器集成方法在检测独立异常和情境异常时具有高效性、稳健性和性能优势。
May, 2024
本文提出了一种新颖的混合方法,将传统的 TF-IDF 技术与先进的机器学习模型相结合,包括贝叶斯分类器、随机梯度下降(SGD)、分类梯度提升(CatBoost)和 12 个 Deberta-v3-large 模型的实例。通过在全面的数据集上进行广泛的实验,我们证明了我们提出的方法在准确区分人工生成和 AI 生成文本方面的有效性。与现有方法相比,我们的方法取得了更好的性能。这项研究为 AI 生成文本检测技术的进展做出了贡献,并为应对 AI 生成内容带来的挑战开发出稳健的解决方案奠定了基础。
Jun, 2024
本研究通过对比分析使用转换器模型和大型语言模型 (LLM) 与传统架构进行文本匿名化任务的性能,评估了几种模型的表现,并展示了每种方法的优点和缺点,为研究人员选择最合适的模型提供了明确的视角。
Apr, 2024
大语言模型生成文本内容的多样性接近于人类的能力,因此为了避免潜在的风险如社交媒体上的假新闻,需要有效的假文本检测。本研究通过在内部和外部分布数据集上测试五种专门的基于 Transformer 的模型来研究它们在 LLM 生成文本检测任务中的性能和泛化能力。结果表明,单个基于 Transformer 的分类器在内部数据集上取得了不错的性能,但在外部数据集上的泛化能力有限。为了改进这一点,我们使用自适应集成算法结合了个体分类器模型,将在内部测试集上的平均准确率从 91.8% 提高到 99.2%,在外部测试集上的准确率从 62.9% 提高到 72.5%。结果表明自适应集成算法在 LLM 生成文本检测中具有有效性、良好的泛化能力和巨大的潜力。
Mar, 2024