关于 LLM 在篡改检测领域的能力研究

Jan, 2024

关于 LLM 在篡改检测领域的能力研究

Research about the Ability of LLM in the Tamper-Detection Area

Xinyu Yang, Jizhe Zhou

TL;DR自 2020 年以来，特别是自 2020 年初以来，大语言模型 (LLMs) 已成为解决各种挑战的最强大的人工智能工具，从自然语言处理到各个领域的复杂问题解决。在伪造检测领域，LLMs 能够识别基本的篡改活动。为了评估 LLMs 在更专业领域的能力，我们收集了由各个公司开发的五种不同的 LLMs：GPT-4、LLaMA、Bard、ERNIE Bot 4.0 和通以谦闻。这种多样化的模型允许对它们在检测复杂篡改实例方面的性能进行全面评估。我们设计了两个检测领域：人工智能生成内容 (AIGC) 检测和篡改检测。AIGC 检测旨在测试区分图像是真实还是人工生成的能力。另一方面，篡改检测专注于识别篡改图像。根据我们的实验，大多数 LLMs 能够识别与逻辑不一致的复合图片，只有更强大的 LLMs 能够识别人眼可见的篡改迹象。所有 LLMs 都不能识别精心伪造的图像和由人工智能生成的非常逼真的图像。在伪造检测领域，LLMs 仍然有很长的路要走，特别是在可靠地识别高度复杂的伪造和非常逼真地模仿现实的 AI - 生成图像方面。

Abstract

In recent years, particularly since the early 2020s, large language models (LLMs) have emerged as the most powerful AI tools in addressing a diverse range of challenges, from natural language processing to complex problem-solving in various domains. In the field of →

large language models tamper detection ai-generated content manipulation detection sophisticated forgeries

发现论文，激发创造

检测 LLM 生成的文本的科学

该研究对大型语言模型生成文本的检测技术现状及未来方向进行了综述，并提出了发展全面的评估指标和威胁控制方案等必要措施。关注点包括大型语言模型的开源威胁和其所产生的可能的误传信息问题。

Feb, 2023

大型语言模型中出现的欺骗能力

该研究揭示了现有的大型语言模型存在伪装策略的能力，分析了它们在复杂欺骗场景中的表现，并发现引发机器心理学领域的之前未知的机器行为。

Jul, 2023

LLMs 生成内容检测调查

综述了大规模语言模型（LLMs）生成内容检测的现有策略和基准，并指出该领域的关键挑战和前景，提倡采用更加适应性和稳健的模型来提高检测准确性，以及应对 LLMs 能力快速发展的多方面防御方法的必要性。该工作是在 LLMs 时代首部全面综述内容检测的研究，旨在为研究人员和从业者提供广泛了解 LLMs 生成内容检测的当前情况的指导参考，以保护数字信息的完整性。

Oct, 2023

软件渗透测试中使用大型语言模型的初步研究

利用大型语言模型（LLM）构建用于软件渗透测试的人工智能代理，通过反复使用和提示工程来提高模型性能。

Jan, 2024

使用语言模型对抗语言模型检测器

本文研究了如何攻击已有的机器文字生成检测算法，并验证了所有被测试的检测器的鲁棒性。结果表明，开发更加鲁棒的机器文字检测系统有着迫切的需求。

May, 2023

LLM 生成的错误信息能被检测出吗？

大语言模型（LLM）的出现具有革命性的影响。然而，像 ChatGPT 这样的 LLM 是否可能被滥用来生成误导信息，对在线安全和公众信任构成了严重关注。我们从检测难度的角度提出了一个基本的研究问题：LLM 生成的误导信息是否比人类编写的误导信息具有更大的危害性？通过我们的实证研究，我们发现相比于具有相同语义的人类编写的误导信息，LLM 生成的误导信息对于人类和检测器来说更难以检测，这表明它可能具有更具欺骗性的风格，并有可能造成更大的伤害。我们还讨论了我们发现对抗 LLM 时的误导信息在信息时代和相应对策的影响。

Sep, 2023

大型语言模型可以引导逃避 AI 生成的文本检测

在该研究中，我们提出了一种新颖的基于替换的上下文示例优化方法（SICO），通过精心设计的提示语，有效地使 ChatGPT 躲避现有的六个检测器，揭示了现有检测器的易感性，并展示了 SICO 的强大性能和可靠性，证实其作为该领域任何新检测器的有效评估协议。

May, 2023

AI 生成文本能否被可靠地检测出来？

本篇研究展示了当前语言模型（LLMs）产生的文本检测器的可靠性不足，并提出了模仿攻击和伪造攻击等问题，强调了在使用 AI 生成文本时的伦理和可靠性问题。

Mar, 2023

基于 LLM 的文本检测调查：必要性、方法和未来方向

大语言模型生成的文本检测是一项关键任务，需要开发检测器来区分其文本是否由大语言模型生成，并呼吁加强相关研究以推进负责任的人工智能实现。

Oct, 2023

谨言慎行：大型语言模型与内容管理

大型语言模型在内容审核中表现出的强大能力备受关注，本研究通过评估一系列商用的现代语言模型（GPT-3，GPT-3.5，GPT-4），在基于规则的社区审核和毒性内容检测两个常见任务中发现，这些模型在许多社区的审核上表现出很高的准确性和精确度，并且超越现有的商用毒性分类器，同时也指出了在毒性检测任务上模型规模增加对性能的边际益处，暗示了大型语言模型在毒性检测任务上可能达到了性能瓶颈。未来的工作可以继续研究大型语言模型和内容审核的发展方向。

Sep, 2023