大型语言模型留下指纹
研究社区正在积极开发检测给定文本是有机的还是合成的方法,本文则聚焦于探讨如何对精细调整的语言模型进行指纹识别以确定其来源,并通过实验结果表明,精细调整本身是确定合成文本来源的最有效方法。
Jun, 2021
大规模语言模型的高昂训练成本使指纹识别模型保护知识产权成为必要,同时确保下游用户和开发者遵守许可条款,本研究提出了一种针对语言模型的指纹识别的试点研究,作为一种非常轻量级的指令调整,以提供模型许可者的身份验证,然而仅在密钥存在时才使语言模型生成特定文本,通过对 11 种常用的语言模型进行测试,结果显示该方法轻巧且不影响模型的正常行为,同时防止了许可者的过度声明,对指纹猜测和参数高效训练具有鲁棒性,并支持与 MIT 许可证类似的多阶段指纹识别。
Jan, 2024
通过对三种不同方法进行深入评估,即传统的浅层学习、语言模型(LM)微调和多语言模型微调,本文对文本生成的重要性有了显著进展,尤其是在区分人类和机器生成文本方面,结果表明这些方法在性能上存在显著差异,强调了在自然语言处理领域中继续推进的重要性,为未来创造强大且具有高度辨别力的模型铺平了道路。
Nov, 2023
大语言模型生成文本内容的多样性接近于人类的能力,因此为了避免潜在的风险如社交媒体上的假新闻,需要有效的假文本检测。本研究通过在内部和外部分布数据集上测试五种专门的基于 Transformer 的模型来研究它们在 LLM 生成文本检测任务中的性能和泛化能力。结果表明,单个基于 Transformer 的分类器在内部数据集上取得了不错的性能,但在外部数据集上的泛化能力有限。为了改进这一点,我们使用自适应集成算法结合了个体分类器模型,将在内部测试集上的平均准确率从 91.8% 提高到 99.2%,在外部测试集上的准确率从 62.9% 提高到 72.5%。结果表明自适应集成算法在 LLM 生成文本检测中具有有效性、良好的泛化能力和巨大的潜力。
Mar, 2024
该研究对大型语言模型生成文本的检测技术现状及未来方向进行了综述,并提出了发展全面的评估指标和威胁控制方案等必要措施。关注点包括大型语言模型的开源威胁和其所产生的可能的误传信息问题。
Feb, 2023
使用 Twitter 数据集检验了四个大型语言模型的生成能力,发现领域内的精细调整和去除审查可显著降低自动检测方法的效果,揭示了细调和内容监管对机器生成的文本检测的影响。
Jun, 2024
通过引入一个新的系统 T5LLMCipher,结合预训练的 T5 编码器和 LLM 嵌入子聚类,我们在 9 个不同生成器和领域中评估了我们的方法,并发现与现有方法相比,我们的方法在看不见的生成器和领域中对机器生成的文本的 F1 得分平均提高了 19.6%,正确属性文本的生成器的准确率达到 93.6%。
Jan, 2024
通过对人类写作文本和基于大型语言模型的生成文本进行比较研究,该论文展示了在不同文体中对于人类文本和生成文本进行分类的机器学习模型的效果,同时指出在故事写作方面识别生成文本的困难性,为未来在人工智能文本识别方面提供了启示和研究数据集。
Jul, 2023