文本数据深度学习异常检测方法

这篇论文是关于基于 Transformer 的异常检测的综述，探讨了当前的挑战、Transformer 及其变种在异常检测中的原理、应用场景、数据集和评估指标，并对未来的研究趋势进行了全面分析。这是首篇集中研究 Transformer 在异常检测领域的综述，为对此感兴趣的研究者提供了详细的技术信息。

Feb, 2024

文本异常检测的鲁棒自编码器集成方法

通过引入鲁棒自编码器集成方法，优化原始数据编码嵌入的局部鲁棒子空间恢复，利用 k 近邻的几何属性来优化子空间恢复，检测文本数据中的异常模式。通过实验设置以及详尽的实验结果评估表明，该鲁棒自编码器集成方法在检测独立异常和情境异常时具有高效性、稳健性和性能优势。

May, 2024

深度和浅层异常检测的统一综述

通过综述研究，探究了在复杂数据集中深度学习方法在异常检测中的应用，分析了常见方法的共性原理、常见假设以及经验评估，并提出了对未来研究的挑战和方向。

Sep, 2020

增强文本真实性：一种新颖的混合方法用于 AI 生成文本检测

本文提出了一种新颖的混合方法，将传统的 TF-IDF 技术与先进的机器学习模型相结合，包括贝叶斯分类器、随机梯度下降（SGD）、分类梯度提升（CatBoost）和 12 个 Deberta-v3-large 模型的实例。通过在全面的数据集上进行广泛的实验，我们证明了我们提出的方法在准确区分人工生成和 AI 生成文本方面的有效性。与现有方法相比，我们的方法取得了更好的性能。这项研究为 AI 生成文本检测技术的进展做出了贡献，并为应对 AI 生成内容带来的挑战开发出稳健的解决方案奠定了基础。

Jun, 2024

基准化高级文本匿名化方法：关于新颖和传统方法的比较研究

本研究通过对比分析使用转换器模型和大型语言模型 (LLM) 与传统架构进行文本匿名化任务的性能，评估了几种模型的表现，并展示了每种方法的优点和缺点，为研究人员选择最合适的模型提供了明确的视角。

Apr, 2024

自适应精调 Transformer 集成模型用于 LLM 生成文本检测

大语言模型生成文本内容的多样性接近于人类的能力，因此为了避免潜在的风险如社交媒体上的假新闻，需要有效的假文本检测。本研究通过在内部和外部分布数据集上测试五种专门的基于 Transformer 的模型来研究它们在 LLM 生成文本检测任务中的性能和泛化能力。结果表明，单个基于 Transformer 的分类器在内部数据集上取得了不错的性能，但在外部数据集上的泛化能力有限。为了改进这一点，我们使用自适应集成算法结合了个体分类器模型，将在内部测试集上的平均准确率从 91.8% 提高到 99.2%，在外部测试集上的准确率从 62.9% 提高到 72.5%。结果表明自适应集成算法在 LLM 生成文本检测中具有有效性、良好的泛化能力和巨大的潜力。

Mar, 2024