深度学习下的释义识别:数据集和方法综述
本文旨在分析大型语言模型如 GPT-4 和 ChatGPT 等的语言生成和改写能力的特点和限制及其对学术诚信的挑战,探讨人工改写和机器改写之间的区别,并对常用的数据集进行综合分析和评估,结果显示自动生成文本的水平仍不及人类普及水平,适合于语义多样性语料的 TF-IDF 方法的效果最好,同时,发现了四个语义多样性和挑战性最高的数据集。
Mar, 2023
本文探讨了使用 T5 和 GPT-3 模型在 arXiv、学生论文和 Wikipedia 上生成机器的译文,并评估了六种自动化解决方案和一种商业剽窃检测软件的检测性能。结果表明,GPT-3 生成的译文质量可以与原始文本一样,而且难以区分真假,最佳检测模型 (GPT-3) 的 F1 分数达到 66%。
Oct, 2022
当前的复述生成和检测方法在相似性评分上过于依赖于单一的通用评分,忽视了语言的复杂语言属性。本文引入了两个新的任务来解决这个缺点,通过考虑特定文本位置上的复述类型 - 特定的语言扰动。我们将这些任务命名为复述类型生成和复述类型检测。我们的结果表明,虽然目前的技术在二元分类场景即复述或非复述上表现良好,但细粒度的复述类型的包含带来了显著的挑战。尽管大多数方法在生成和检测常规语义相似内容方面表现出色,但它们未能理解所操作的固有语言变量。在生成和识别复述类型训练的模型也在没有这些任务的情况下显示出改进。另外,扩展这些模型进一步提高了它们理解复述类型的能力。我们相信复述类型可以为开发复述模型和解决未来任务的开启一种新的范式。
Oct, 2023
基于 GPT-3.5 的抄袭文本数据生成方法和基于 Faiss with BERT 的抄袭识别方法在文本抄袭检测任务中表现优异,并提供用户友好的演示平台。
Apr, 2024
本研究针对学术环境中使用人工智能生成文本的潜在风险进行研究,发现现有的人工智能生成文本检测工具准确性和可靠性都有问题,并且在检测时存在偏向于将 AI 生成文本归类为人类写作。同时,内容混淆技术也会显著降低检测工具的性能。
Jun, 2023
AI 生成的文本检测已引起广泛关注,随着强大的语言模型接近人类水平的生成,检测(部分)AI 改写文本的工作受到了限制,然而,AI 改写在各种应用场景中常被用于文本优化和多样性,为此,我们提出了一种新颖的检测框架,用于检测文本中的改写范围(PTD),旨在识别文本中的改写范围,不同于文本级别的检测,PTD 采用全文并为每个句子分配一个得分,表示改写程度,我们构建了一个专用数据集 PASTED 用于检测文本中的改写范围,内部和外部结果表明 PTD 模型在识别 AI 改写文本范围方面的有效性,统计和模型分析阐释了改写文本范围周围上下文的关键作用,大量实验证明 PTD 模型可以适用于多种改写提示和多个改写文本范围,我们在此链接处发布我们的资源
May, 2024
通过对抗方法提出了一个新的数据集创建方式 —— 对抗性同义句生成任务(Adversarial Paraphrasing Task, APT),以更好地检测句级别的意义相等,从而加速数据集生成并提高同义句识别模型的性能。
Jun, 2021
最近的文献强调了大型语言模型(LLMs)与学术诚信相关的潜在风险,它们可以记忆部分训练实例并在生成的文本中无妥善归属地复制。此外,鉴于它们在生成高质量文本方面的能力,剽窃者可以利用 LLMs 生成与原作无法区分的逼真释义或摘要。为了应对 LLMs 可能在剽窃行为中的恶意使用,我们介绍了 PlagBench,这是一个综合的数据集,由三个针对不同写作领域的三个指导调整的 LLMs 生成的 46.5K 个合成剽窃案例组成。通过对每种类型的剽窃进行细粒度的自动评估和人工注释来确保 PlagBench 的质量。然后,我们利用我们提出的数据集来评估五个现代 LLMs 和三个专门的剽窃检测器的剽窃检测性能。我们的研究结果表明,与 Llama2 和 GPT-4 相比,GPT-3.5 倾向于生成更高质量的释义和摘要。尽管 LLMs 在摘要剽窃识别方面表现较差,但它们可以超过当前的商业剽窃检测器。总体而言,我们的结果突显了 LLMs 作为强大剽窃检测工具的潜力。
Jun, 2024
该研究提出了一种基于改写生成的方法,可以减少创建新对话代理所需要的时间和成本,同时提高其性能,使其能够实际与真实用户进行交互。实验证明该方法提高了意图分类模型的泛化能力,有助于在组织范围内规模化部署这项技术。
Apr, 2022