在野外对微调语言模型进行指纹识别

Jun, 2021

在野外对微调语言模型进行指纹识别

Fingerprinting Fine-tuned Language Models in the Wild

Nirav Diwan, Tanmoy Chakravorty, Zubair Shafiq

TL;DR研究社区正在积极开发检测给定文本是有机的还是合成的方法，本文则聚焦于探讨如何对精细调整的语言模型进行指纹识别以确定其来源，并通过实验结果表明，精细调整本身是确定合成文本来源的最有效方法。

Abstract

There are concerns that the ability of language models (LMs) to generate high quality synthetic text can be misused to launch spam, disinformation, or propaganda. Therefore, the research community is actively wor

language models synthetic text fingerprinting fine-tuned lms attribution

发现论文，激发创造

大型语言模型留下指纹

通过分析 LLM 指纹，我们展示了即使是简单的分类器也能在训练领域内外的数据中实现非常强大的性能，从而有效区分人类生成的文本和机器生成的文本。

May, 2024

大型语言模型的教学指纹

大规模语言模型的高昂训练成本使指纹识别模型保护知识产权成为必要，同时确保下游用户和开发者遵守许可条款，本研究提出了一种针对语言模型的指纹识别的试点研究，作为一种非常轻量级的指令调整，以提供模型许可者的身份验证，然而仅在密钥存在时才使语言模型生成特定文本，通过对 11 种常用的语言模型进行测试，结果显示该方法轻巧且不影响模型的正常行为，同时防止了许可者的过度声明，对指纹猜测和参数高效训练具有鲁棒性，并支持与 MIT 许可证类似的多阶段指纹识别。

Jan, 2024

提升学术写作领域的 LLM-Synthetic 文本检测器的鲁棒性：一项综合分析

我们提供了对大语言模型的生成文本影响的全面分析，并强调了当前最先进的 GPT 检测器中可能存在的鲁棒性缺失。为了解决学术写作中滥用大语言模型的问题，我们提出了一种基于参考文本的孪生检测器 Synthetic-Siamese，将一对文本作为查询和参考，该方法有效解决了以前检测器（OpenAI detector 和 DetectGPT）的鲁棒性缺失，并将基线性能在实际学术写作场景中提高了约 67% 至 95%。

Jan, 2024

突破图灵：检测机器生成文本方法的比较分析

通过对三种不同方法进行深入评估，即传统的浅层学习、语言模型（LM）微调和多语言模型微调，本文对文本生成的重要性有了显著进展，尤其是在区分人类和机器生成文本方面，结果表明这些方法在性能上存在显著差异，强调了在自然语言处理领域中继续推进的重要性，为未来创造强大且具有高度辨别力的模型铺平了道路。

Nov, 2023

大型语言模型生成的文本受到假新闻检测器的偏见

在大语言模型 (LLMs) 时代，我们发现许多现有的假新闻检测器存在显著偏见，更容易将 LLMs 生成的内容标记为假新闻，而常常误将人类撰写的假新闻分类为真实。为了解决这个问题，我们引入了一种对抗训练与 LLMs 重写的真实新闻相结合的缓解策略，从而在人类和 LLMs 生成的新闻的检测准确性方面取得了显著的改进。为了进一步推动该领域的研究，我们发布了两个全面的数据集 “GossipCop++” 和 “PolitiFact++”，将经人工验证的文章与 LLMs 生成的假新闻和真实新闻相结合。

Sep, 2023

AI "新闻" 内容农场的建立容易且难以检测：意大利的案例研究

大型语言模型（LLM）正在日益被用作 “内容农场” 模型（CFMs），用于生成可以通过真实新闻文章的合成文本。我们展示了只用 40K 份意大利新闻文章对大部分在英语上进行训练的 Llama（v1）进行微调就足以产生意大利本地人难以辨认为合成文本的新闻样本。我们研究了三个 LLM 和三种检测合成文本的方法（对数似然、DetectGPT 和监督分类），发现它们都比人类评比者表现更好，但在实际情况下都不实用（要求对令牌似然信息有访问权或大量 CFM 文本数据集）。我们还探索了创建代理 CFM 的可能性：在与真实 “内容农场” 使用的类似数据集上进行微调的 LLM。我们发现只需少量微调数据就能成功创建一个检测器，但我们需要知道使用了哪个基础 LLM，这是一个重大挑战。我们的结果表明，目前没有实际的方法来 “野外” 检测合成类似新闻的文本，而生成它们太容易。我们强调了对这个问题进行更多自然语言处理研究的紧迫性。

Jun, 2024

大型语言模型的性能误区揭秘：微调与失败？

研究探讨了大型语言模型在细调、提取上下文数据和性能增强方面的影响，以及它们在多个领域的应用情况，并指出了细调模型在特定任务中性能下降的问题。

Jun, 2024

利用精调的大型语言模型进行虚假信息和假新闻检测的分析

利用 PEFT/LoRA 的方法对 Llama 2 大型语言模型进行细调，以用于辨析虚假信息和检测假新闻。该研究中，模型被细调以完成以下任务：解析揭示虚假信息和宣传叙事的文本、事实核查、假新闻检测、操纵分析、提取带情感的命名实体。实验结果表明，细调后的 Llama 2 模型能够对文本进行深度分析，揭示复杂的风格和叙事。命名实体的情感提取可以作为监督机器学习模型中的预测特征。

Sep, 2023

在资源匮乏环境中通过大型语言模型的微调进行文本数据增强

通过细调教师大型语言模型产生和注释的数据，可以改善较小模型的下游性能，有时只需要原始训练数据的一小部分。

Oct, 2023

揭示冒充者：领域内检测人类与机器生成的推文

使用 Twitter 数据集检验了四个大型语言模型的生成能力，发现领域内的精细调整和去除审查可显著降低自动检测方法的效果，揭示了细调和内容监管对机器生成的文本检测的影响。

Jun, 2024