大型语言模型留下指纹

May, 2024

Your Large Language Models Are Leaving Fingerprints

Hope McGovern, Rickard Stureborg, Yoshi Suhara, Dimitris Alikaniotis

TL;DR通过分析 LLM 指纹，我们展示了即使是简单的分类器也能在训练领域内外的数据中实现非常强大的性能，从而有效区分人类生成的文本和机器生成的文本。

Abstract

It has been shown that finetuned transformers and other supervised detectors effectively distinguish between human and machine-generated text

finetuned transformers supervised detectors machine-generated text lexical and morphosyntactic features llm fingerprints

发现论文，激发创造

在野外对微调语言模型进行指纹识别

研究社区正在积极开发检测给定文本是有机的还是合成的方法，本文则聚焦于探讨如何对精细调整的语言模型进行指纹识别以确定其来源，并通过实验结果表明，精细调整本身是确定合成文本来源的最有效方法。

Jun, 2021

从文本到来源：大型语言模型生成内容的检测结果

通过探索跨模型检测、模型归因以及分类器的效果与模型规模之间的关系，该研究在大型语言模型的使用中提供了宝贵的见解。

Sep, 2023

大型语言模型的教学指纹

大规模语言模型的高昂训练成本使指纹识别模型保护知识产权成为必要，同时确保下游用户和开发者遵守许可条款，本研究提出了一种针对语言模型的指纹识别的试点研究，作为一种非常轻量级的指令调整，以提供模型许可者的身份验证，然而仅在密钥存在时才使语言模型生成特定文本，通过对 11 种常用的语言模型进行测试，结果显示该方法轻巧且不影响模型的正常行为，同时防止了许可者的过度声明，对指纹猜测和参数高效训练具有鲁棒性，并支持与 MIT 许可证类似的多阶段指纹识别。

Jan, 2024

突破图灵：检测机器生成文本方法的比较分析

通过对三种不同方法进行深入评估，即传统的浅层学习、语言模型（LM）微调和多语言模型微调，本文对文本生成的重要性有了显著进展，尤其是在区分人类和机器生成文本方面，结果表明这些方法在性能上存在显著差异，强调了在自然语言处理领域中继续推进的重要性，为未来创造强大且具有高度辨别力的模型铺平了道路。

Nov, 2023

基于集成 LLM 方法的生成式人工智能文本分类

本文提出了一种集成神经模型以检测大型语言模型生成的语言，并对模型进行归因的方法。

Sep, 2023

自适应精调 Transformer 集成模型用于 LLM 生成文本检测

大语言模型生成文本内容的多样性接近于人类的能力，因此为了避免潜在的风险如社交媒体上的假新闻，需要有效的假文本检测。本研究通过在内部和外部分布数据集上测试五种专门的基于 Transformer 的模型来研究它们在 LLM 生成文本检测任务中的性能和泛化能力。结果表明，单个基于 Transformer 的分类器在内部数据集上取得了不错的性能，但在外部数据集上的泛化能力有限。为了改进这一点，我们使用自适应集成算法结合了个体分类器模型，将在内部测试集上的平均准确率从 91.8% 提高到 99.2%，在外部测试集上的准确率从 62.9% 提高到 72.5%。结果表明自适应集成算法在 LLM 生成文本检测中具有有效性、良好的泛化能力和巨大的潜力。

Mar, 2024

检测 LLM 生成的文本的科学

该研究对大型语言模型生成文本的检测技术现状及未来方向进行了综述，并提出了发展全面的评估指标和威胁控制方案等必要措施。关注点包括大型语言模型的开源威胁和其所产生的可能的误传信息问题。

Feb, 2023

揭示冒充者：领域内检测人类与机器生成的推文

使用 Twitter 数据集检验了四个大型语言模型的生成能力，发现领域内的精细调整和去除审查可显著降低自动检测方法的效果，揭示了细调和内容监管对机器生成的文本检测的影响。

Jun, 2024

解读文本真实性：通过大语言语义的普遍策略来检测人类与机器生成的文本

通过引入一个新的系统 T5LLMCipher，结合预训练的 T5 编码器和 LLM 嵌入子聚类，我们在 9 个不同生成器和领域中评估了我们的方法，并发现与现有方法相比，我们的方法在看不见的生成器和领域中对机器生成的文本的 F1 得分平均提高了 19.6％，正确属性文本的生成器的准确率达到 93.6％。

Jan, 2024

模仿游戏：在大型语言模型时代检测人类和 AI 生成的文本

通过对人类写作文本和基于大型语言模型的生成文本进行比较研究，该论文展示了在不同文体中对于人类文本和生成文本进行分类的机器学习模型的效果，同时指出在故事写作方面识别生成文本的困难性，为未来在人工智能文本识别方面提供了启示和研究数据集。

Jul, 2023