一种基于 ViT 的混合体系结构的 GAN 基于图像操作的开放集分类
由于缺乏在未知架构上工作的方法,使得大多数合成图像归因的方法只能归因于训练集中的模型或架构生成的图像,限制了其在实际场景中的适用性。本文提出了一个验证框架,该框架依赖于孪生网络,以解决将合成图像归因为生成它们的架构的开放集问题。我们考虑了两种不同的设置。第一种设置,系统确定两幅图像是否由同一生成架构产生。第二种设置,系统验证关于用于生成合成图像的架构的声明,利用由声称的架构生成的一个或多个参考图像。所提出系统的主要优势在于其能够在封闭集和开放集场景下运行,使得输入图像,无论是查询图像还是参考图像,都可以属于训练过程中考虑的架构或不属于它们。实验评估涵盖了各种生成架构,如 GAN、扩散模型和变压器,重点关注合成人脸图像生成,在封闭集和开放集设置下均证实了我们的方法的卓越性能和强大的泛化能力。
Jul, 2023
通过度量学习的方法,我们提出了一种用于实现开放集场景下合成图像源追溯的技术,该技术通过学习可区分不同生成器的可转移嵌入向量,并通过与已知生成器的学习参考点在嵌入空间中的距离来判定图像的真实性。实验结果表明,我们的方法能够在开放集场景下成功追溯合成图像的源。
Aug, 2023
本文研究在生成对抗网络中引入 Vision Transformers (ViTs) 架构,并通过引入创新的正则化技术(ViTGAN)解决现有正则化方法与自注意力交互不良的问题,实验表明 ViTGAN 在 CIFAR-10,CelebA 和 LSUN 卧室数据集上表现不亚于基于卷积神经网络的 StyleGAN2 的最新成果。
Jul, 2021
本研究通过提出两种攻击策略,Self-Ensemble 和 Token Refinement,充分利用了 Vision Transformers 的自注意力和组合性质来增强对抗攻击的传递性能。
Jun, 2021
开发了一种新的图像篡改定位模型,称为 IML-ViT,它具有高分辨能力、多尺度特征提取能力和篡改边缘监督,并在五个基准数据集上进行了广泛实验,证明了其优于现有篡改定位方法的性能。
Jul, 2023
本研究提出了一种基于 ViT 技术解决开放集识别问题的新方法,通过集群标识测试示例是否属于已知类别,实现模型性能的提升。在多个开放集基准数据集上的广泛评估表明,该方法显著优于其他基线方法并取得了新的最佳性能。
Mar, 2022
本文提出了一种基于视觉 Transformer 的无监督非一致性感知方法 (UIA-ViT),该方法可在没有像素级别注释的情况下仅利用视频级别标签,并使用一致性关系进行特征学习以提高人脸伪造检测性能。
Oct, 2022
本文提出一种基于 Vision Transformer 的无监督异常检测网络,利用分层任务学习和人类经验来增强其可解释性,可以有效解决高维空间中非线性模型拟合的问题和纹理变化对算法鲁棒性的挑战,并在公开数据集上取得了 99.8% AUC 的表现,优于现有最先进方法。
Jul, 2022
本研究提出了一种新的网络 MVSS-Net,通过多视角特征学习和多尺度监督,从噪声分布和边界伪影等方面解决了图像操作检测中的敏感性和特异性问题,并在五个基准测试集上进行了广泛实验验证。
Apr, 2021
本文提出了一个新的多类预测框架,基于 ViT 和 ViTGAN,在使用可解释 AI 的情况下,对皮肤病变分类。该框架分四个阶段,引入了生成对抗网络来解决类不平衡问题,使用卷积神经网络实现分类,实验结果相较于现有框架有所改善。
Feb, 2023