一种基于 ViT 的混合体系结构的 GAN 基于图像操作的开放集分类

Apr, 2023

一种基于 ViT 的混合体系结构的 GAN 基于图像操作的开放集分类

Open Set Classification of GAN-based Image Manipulations via a ViT-based Hybrid Architecture

Jun Wang, Omran Alamayreh, Benedetta Tondi, Mauro Barni

TL;DR本文研究如何在开放集场景下识别人工智能处理的图片，提出一种基于 Vision Transformers 和位置信息的分类方法，并使用拒绝策略过滤不能识别的图片。此方法在面部属性编辑和 GAN 属性分类任务上取得了较好分类效果。

Abstract

classification of ai-manipulated content is receiving great attention, for distinguishing different types of manipulations. Most of the methods developed so far fail in the →

ai-manipulated content classification synthetic face generation open-set scenario vision transformers

发现论文，激发创造

面向合成图像的开放式架构归因验证系统

由于缺乏在未知架构上工作的方法，使得大多数合成图像归因的方法只能归因于训练集中的模型或架构生成的图像，限制了其在实际场景中的适用性。本文提出了一个验证框架，该框架依赖于孪生网络，以解决将合成图像归因为生成它们的架构的开放集问题。我们考虑了两种不同的设置。第一种设置，系统确定两幅图像是否由同一生成架构产生。第二种设置，系统验证关于用于生成合成图像的架构的声明，利用由声称的架构生成的一个或多个参考图像。所提出系统的主要优势在于其能够在封闭集和开放集场景下运行，使得输入图像，无论是查询图像还是参考图像，都可以属于训练过程中考虑的架构或不属于它们。实验评估涵盖了各种生成架构，如 GAN、扩散模型和变压器，重点关注合成人脸图像生成，在封闭集和开放集设置下均证实了我们的方法的卓越性能和强大的泛化能力。

Jul, 2023

开放集合的合成图像源归因

通过度量学习的方法，我们提出了一种用于实现开放集场景下合成图像源追溯的技术，该技术通过学习可区分不同生成器的可转移嵌入向量，并通过与已知生成器的学习参考点在嵌入空间中的距离来判定图像的真实性。实验结果表明，我们的方法能够在开放集场景下成功追溯合成图像的源。

Aug, 2023

使用视觉 Transformer 训练 GANs 的 ViTGAN

本文研究在生成对抗网络中引入 Vision Transformers (ViTs) 架构，并通过引入创新的正则化技术（ViTGAN）解决现有正则化方法与自注意力交互不良的问题，实验表明 ViTGAN 在 CIFAR-10，CelebA 和 LSUN 卧室数据集上表现不亚于基于卷积神经网络的 StyleGAN2 的最新成果。

Jul, 2021

提升视觉 Transformer 的对抗传递性

本研究通过提出两种攻击策略，Self-Ensemble 和 Token Refinement，充分利用了 Vision Transformers 的自注意力和组合性质来增强对抗攻击的传递性能。

Jun, 2021

IML-ViT：基于视觉 Transformer 的图像操作定位

开发了一种新的图像篡改定位模型，称为 IML-ViT，它具有高分辨能力、多尺度特征提取能力和篡改边缘监督，并在五个基准数据集上进行了广泛实验，证明了其优于现有篡改定位方法的性能。

Jul, 2023

使用具有额外检测头的视觉转换器进行开放集识别

本研究提出了一种基于 ViT 技术解决开放集识别问题的新方法，通过集群标识测试示例是否属于已知类别，实现模型性能的提升。在多个开放集基准数据集上的广泛评估表明，该方法显著优于其他基线方法并取得了新的最佳性能。

Mar, 2022

基于视觉 Transformer 的无监督一致性检测的人脸伪造方法 (UIA-ViT)

本文提出了一种基于视觉 Transformer 的无监督非一致性感知方法 (UIA-ViT)，该方法可在没有像素级别注释的情况下仅利用视频级别标签，并使用一致性关系进行特征学习以提高人脸伪造检测性能。

Oct, 2022

基于模式生成对比网络的非监督工业异常检测

本文提出一种基于 Vision Transformer 的无监督异常检测网络，利用分层任务学习和人类经验来增强其可解释性，可以有效解决高维空间中非线性模型拟合的问题和纹理变化对算法鲁棒性的挑战，并在公开数据集上取得了 99.8% AUC 的表现，优于现有最先进方法。

Jul, 2022

多视角多尺度监督图像篡改检测

本研究提出了一种新的网络 MVSS-Net，通过多视角特征学习和多尺度监督，从噪声分布和边界伪影等方面解决了图像操作检测中的敏感性和特异性问题，并在五个基准测试集上进行了广泛实验验证。

Apr, 2021

基于视觉转换的皮肤病生成与分类

本文提出了一个新的多类预测框架，基于 ViT 和 ViTGAN，在使用可解释 AI 的情况下，对皮肤病变分类。该框架分四个阶段，引入了生成对抗网络来解决类不平衡问题，使用卷积神经网络实现分类，实验结果相较于现有框架有所改善。

Feb, 2023