PlagBench: 大型语言模型在抄袭生成和检测中的二元性探索

Jun, 2024

PlagBench: 大型语言模型在抄袭生成和检测中的二元性探索

PlagBench: Exploring the Duality of Large Language Models in Plagiarism Generation and Detection

Jooyoung Lee, Toshini Agrawal, Adaku Uchendu, Thai Le, Jinghui Chen...

TL;DR最近的文献强调了大型语言模型（LLMs）与学术诚信相关的潜在风险，它们可以记忆部分训练实例并在生成的文本中无妥善归属地复制。此外，鉴于它们在生成高质量文本方面的能力，剽窃者可以利用 LLMs 生成与原作无法区分的逼真释义或摘要。为了应对 LLMs 可能在剽窃行为中的恶意使用，我们介绍了 PlagBench，这是一个综合的数据集，由三个针对不同写作领域的三个指导调整的 LLMs 生成的 46.5K 个合成剽窃案例组成。通过对每种类型的剽窃进行细粒度的自动评估和人工注释来确保 PlagBench 的质量。然后，我们利用我们提出的数据集来评估五个现代 LLMs 和三个专门的剽窃检测器的剽窃检测性能。我们的研究结果表明，与 Llama2 和 GPT-4 相比，GPT-3.5 倾向于生成更高质量的释义和摘要。尽管 LLMs 在摘要剽窃识别方面表现较差，但它们可以超过当前的商业剽窃检测器。总体而言，我们的结果突显了 LLMs 作为强大剽窃检测工具的潜力。

Abstract

Recent literature has highlighted potential risks to academic integrity associated with large language models (LLMs), as they can memorize parts of training instances and reproduce them in the generated texts wit

academic integrity language models plagiarism plagbench dataset plagiarism detection

发现论文，激发创造

大型语言模型如何改变机器改写抄袭

本文探讨了使用 T5 和 GPT-3 模型在 arXiv、学生论文和 Wikipedia 上生成机器的译文，并评估了六种自动化解决方案和一种商业剽窃检测软件的检测性能。结果表明，GPT-3 生成的译文质量可以与原始文本一样，而且难以区分真假，最佳检测模型 (GPT-3) 的 F1 分数达到 66％。

Oct, 2022

语言模型是否存在抄袭问题？

本文研究了语言模型中三种类型的抄袭行为（即逐字，改写和思想），分析了细调语言模型的抄袭模式。结果显示，语言模型存在广泛的抄袭，其大小和解码方法与抄袭程度密切相关，抄袭模式的变化取决于其语料库的相似性和同质性。这些发现提出了关于当前语言模型实践中实用性的疑虑并强调了观察到的现象的更多探讨。

Mar, 2022

AI 生成之抄袭侦测：从句子到文件级别

使用自然语言处理技术的对比学习方法，通过多重语义解读对大型语言模型的生成文本进行分析，达到了 94% 的准确率，在学术界检测人工智能生成的文本的抄袭和欺诈具有强大的适应性和可靠性。

Jun, 2023

检测在计算机教育中生成的 LLM 文本：一个 ChatGPT 案例的比较研究

本文评估了 8 个公开可用的大型语言模型生成文本检测器的准确性，假阳性和弹性，并发现 CopyLeaks 是最准确的大型语言模型生成文本检测器，GPTKit 是减少假阳性的最佳大型语言模型生成文本检测器，而 GLTR 是最弹性的大型语言模型生成文本检测器。

Jul, 2023

基于 LLM 的数据增强方法提升跨语言表现

本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力，通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集，确定了该方法的有效性，并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明，使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀，ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好，但在某些情况下，它们的效益会下降。

May, 2023

通过对比使用来锻造语言模型自我抄袭中的独创性

通过采用对比解码策略来提高预训练语言模型产生原创内容的独特方法，观察了在学术和故事数据集中超过三个词的非原创序列的显著下降。

Jun, 2024

利用大型语言模型作为参考学习自动摘要

本文提出了一种新的学习范式，考虑到 LLMS 是常用摘要数据集中的参考标准，用对比学习和 LLM 作为摘要质量评估器进行摘要训练方法。实验证明，用 GPTScore 和 GPTRank 两种 LLM 计分方式训练出来的较小的摘要模型，其性能可以与参考的 LLM 相媲美，通过访问 LLMS 它只需要很小的预算。

May, 2023

基于条件生成的大型语言模型性能基准测试

本文提出如何将 PLMs 应用到现有应用程序特定的生成基准上，对输入和输出语言等不同维度的 PLMs 在自然语言生成任务方面的优点和局限性进行了深入的实证研究，并分享了在开发新 PLMs 时考虑到的基准生成能力的最佳实践。

Jun, 2023

提升学术写作领域的 LLM-Synthetic 文本检测器的鲁棒性：一项综合分析

我们提供了对大语言模型的生成文本影响的全面分析，并强调了当前最先进的 GPT 检测器中可能存在的鲁棒性缺失。为了解决学术写作中滥用大语言模型的问题，我们提出了一种基于参考文本的孪生检测器 Synthetic-Siamese，将一对文本作为查询和参考，该方法有效解决了以前检测器（OpenAI detector 和 DetectGPT）的鲁棒性缺失，并将基线性能在实际学术写作场景中提高了约 67% 至 95%。

Jan, 2024

大型语言模型的释义

本文介绍了一种使用大型语言模型来进行各种文本主题的改写以及延申到段落级别的重述的技术。该方法表现出了良好的效果，不仅能够对句子进行改写，还能对整段文本进行处理，无需将文本划分为较小的块。

Nov, 2019