测量篡改检测基准

Aug, 2023

Measurement Tampering Detection Benchmark

Fabien Roger, Ryan Greenblatt, Max Nadeau, Buck Shlegeris, Nate Thomas

TL;DR针对大型语言模型，建立四个新的基于文本的数据集，评估测量篡改检测技术，展示了超越简单基准的技术，并表明在技术和数据集方面仍有改进的空间。

Abstract

When training powerful ai systems to perform complex tasks, it may be challenging to provide training signals which are robust to optimization. One concern is measurement tampering, where the AI system manipulate

ai systems measurement tampering text-based datasets detection techniques language models

发现论文，激发创造

测量对抗数据集

在广泛应用于各个领域的 AI 系统的时代，确保对抗性鲁棒性变得越来越重要，以维护安全性并防止不可取的错误。本研究对描述 NLP 任务中文本实例的现有可量化指标进行了系统调查，并选择了几个当前的对抗效应数据集，比较了原始数据与对抗样本之间的分布差异，研究结果揭示了这些数据集在度量角度上更具挑战性的原因及其与基本假设的一致性。

Nov, 2023

SearchFromFree: 机器学习基于的对抗测量用于能量窃取检测

本文介绍了基于神经网络技术的能量盗窃检测方法，以及如何使用对抗性攻击使得机器学习模型容易受到攻击，从而欺诈性报告极低的功率消耗测量值，绕过机器学习能量盗窃检测，实现攻击目的。实验结果表明，这种方法能够显著降低机器学习模型的检测准确性，即使对于黑盒攻击。

Jun, 2020

关于 LLM 在篡改检测领域的能力研究

自 2020 年以来，特别是自 2020 年初以来，大语言模型 (LLMs) 已成为解决各种挑战的最强大的人工智能工具，从自然语言处理到各个领域的复杂问题解决。在伪造检测领域，LLMs 能够识别基本的篡改活动。为了评估 LLMs 在更专业领域的能力，我们收集了由各个公司开发的五种不同的 LLMs：GPT-4、LLaMA、Bard、ERNIE Bot 4.0 和通以谦闻。这种多样化的模型允许对它们在检测复杂篡改实例方面的性能进行全面评估。我们设计了两个检测领域：人工智能生成内容 (AIGC) 检测和篡改检测。AIGC 检测旨在测试区分图像是真实还是人工生成的能力。另一方面，篡改检测专注于识别篡改图像。根据我们的实验，大多数 LLMs 能够识别与逻辑不一致的复合图片，只有更强大的 LLMs 能够识别人眼可见的篡改迹象。所有 LLMs 都不能识别精心伪造的图像和由人工智能生成的非常逼真的图像。在伪造检测领域，LLMs 仍然有很长的路要走，特别是在可靠地识别高度复杂的伪造和非常逼真地模仿现实的 AI - 生成图像方面。

Jan, 2024

多媒体取证的数据集、线索和最新技术：广泛综述

使用深度学习模型对多媒体数据进行篡改检测，本文关注公开可用的恶意篡改检测基准数据集的详细分析，提供了一份全面的篡改线索和常用的深度学习架构清单，并讨论了当前最先进的篡改检测方法，将其分为深度伪造检测方法、拼接篡改检测方法、复制和移动篡改检测方法等，讨论了它们的优势和弱点。文章还讨论了在基准数据集上取得的最佳结果，将深度学习方法与传统方法进行比较，并提供了最近篡改检测方法的关键见解。最后，讨论了研究的空白、未来方向和结论，以提供对篡改检测研究领域的深入理解。

Jan, 2024

规避语言模型的数据污染检测 (过于) 简单

大型语言模型在基准测试中的性能经常影响用户对模型的偏好。然而，这些模型训练所使用的大量数据可能会无意中与公共基准测试数据混合，从而损害性能测量结果。尽管最近开发了一些污染检测方法来解决这个问题，但它们忽视了恶意模型提供者有意回避检测的可能性。我们认为这种情况非常重要，因为它对公共基准测试的可靠性产生了怀疑。为了更严谨地研究这个问题，我们提出了对模型提供者和污染检测方法进行分类。这揭示了现有方法的漏洞，我们利用了一种简单但有效的污染技术（EAL），它能大幅提高基准测试性能，并完全回避当前的检测方法。

Feb, 2024

朝着真实文本操纵检测的目标：新数据集和新解决方案

为了解决合成篡改无法充分复制真实世界篡改属性的问题，我们提出了一个 RTM 数据集，包含 14250 个文本图像，其中包括 5986 个手动和 5258 个自动篡改的图像，使用各种技术创建，同时还包括 3006 个未更改的文本图像，用于评估解决方案的稳定性。我们的评估表明现有的方法在 RTM 数据集上的文本伪造检测方面存在问题。我们提出了一个强大的基线解决方案，它采用一个一致性感知的聚合中心和一个门控交叉邻域注意融合模块用于高效的多模态信息融合，并在训练过程中采用一个被篡改 - 真实对比学习模块，丰富特征表示的差异。这个框架可以扩展到其他双流体系结构，对手动和总体篡改的定位性能分别提高了 7.33% 和 6.38%。我们的贡献旨在推动现实世界文本篡改检测的进展。代码和数据集将在此 https 网址上提供。

Dec, 2023

文本篡改检测与识别的两阶段双通道框架

基于深度学习的文档篡改检测中，我们提出了一种包括特征辅助、审核点定位和篡改识别三个步骤的 Ps 篡改检测方法，通过组合人工篡改数据特征，模拟和增强各种场景中的数据样本，并采用层次过滤和分级输出的方法进行检测，获得了准确率为 0.804，召回率为 0.659，精确率为 0.913 的结果。

Feb, 2024

穿越黑暗：揭示现代 AI 内容检测器的有效干扰

利用机器学习模型对文章进行自动生成的大语言模型，在知识产权保护、个人隐私和学术诚信方面引发了关注。AI 文本检测系统目前存在鲁棒性不足和难以有效区分扰动文本的问题。本研究通过模拟真实场景，评估当前检测模型在实际应用中的性能，并构建了 12 种黑盒文本扰动方法来评估检测模型的鲁棒性。此外，通过对抗学习实验，研究扰动数据增强对 AI 文本检测器鲁棒性的影响。

Jun, 2024

当措施不可靠时：面向前 $k$ 多标签学习的不可察觉的对抗性扰动

该论文提出了一种在多标签学习中能够同时迷惑视觉感知和规避度量监测的对抗性攻击方法，并通过对大规模基准数据集的实验表明其优越性。

Jul, 2023

人性化机器生成内容：通过对抗性攻击规避 AI 文本检测

在本文中，我们提出了一个针对更广泛的对抗性攻击类别的框架，旨在对机器生成的内容进行微小扰动以逃避检测，通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现，现有的检测模型可以在仅 10 秒内受到破坏，将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进，但实际应用仍面临重大挑战，这些发现为 AI 文本检测器的未来发展提供了启示，强调了对更准确和鲁棒的检测方法的需求。

Apr, 2024