遮蔽拼图：一种用于视觉 Transformer 的多功能位置嵌入

CVPRMay, 2022

遮蔽拼图：一种用于视觉 Transformer 的多功能位置嵌入

Masked Jigsaw Puzzle: A Versatile Position Embedding for Vision Transformers

Bin Ren, Yahui Liu, Yue Song, Wei Bi, Rita Cucchiara...

TL;DR提出一种名为 Masked Jigsaw Puzzle (MJP) 的位置嵌入方法，用于解决 ViT 中的位置嵌入对隐私泄露的问题。实验结果表明，MJP 方法在一定程度的遮蔽之下，既可以提高性能和鲁棒性，也可以显著提高在梯度攻击下的隐私保护能力。

Abstract

position embeddings (PEs), an arguably indispensable component in Vision Transformers (ViTs), have been shown to improve the performance of ViTs on many vision tasks. However, PEs have a potentially high risk of privacy leakage since the →

position embeddings privacy preservation masked jigsaw puzzle vision transformers spatial information

发现论文，激发创造

通过 MAE + 对视觉变换器进行预训练的对抗位置嵌入

本文提出了一种基于 Adversarial Positional Embedding (AdPE) 方法的无监督学习方式，旨在完善预测任务以避免学习仅适用于下游任务的低级特征，实验结果表明，该方法准确性能优于传统无监督学习以及不使用额外模型，数据集的视觉变换和不同网络架构等条件。

Mar, 2023

使用扩散视觉变换器解决遮蔽拼图难题

利用扩散转换器生成基于可视内容的图像拼图或视频帧的位置信息，从而准确地组装拼图块，即使存在缺失块，该方法在多个数据集上达到了最先进的性能。

Apr, 2024

联合嵌入预测架构的图像自监督学习

该研究论文使用了无需手工制作的数据增强方法来学习高度语义化的图像表示，引入了 I-JEPA 框架，通过从单个上下文块中预测同一图像中的各种目标块的表示来实现自我监督学习。实验结果表明，与 Vision Transformers 相结合，I-JEPA 具有高度的可扩展性和强大的下游性能。

Jan, 2023

MSPE：多尺度补丁嵌入激励视觉变换器适应任何分辨率

本研究提出了一种名为 Multi-Scale Patch Embedding（MSPE）的方法，通过优化贴片嵌入，增强模型对分辨率变化的适应能力，在图像分类、分割和检测任务中通过消除对原始图像的调整，显著提高低分辨率输入的性能，并与现有方法在高分辨率输入方面表现相当。

May, 2024

DMT-JEPA：用于联合嵌入预测结构的判别性掩码目标

我们介绍了一种新的基于 JEPA 的 masked modeling 目标 DMT-JEPA，通过计算特征相似性和使用轻量级交叉注意力头，将语义相似的邻域图像作为目标来生成具有辨别力的潜在目标，从而弥补了 JEPA 在理解局部语义方面的不足。

May, 2024

视觉 Transformer 预训练中遮蔽和置换视觉令牌的学习

本研究提出了一种名为 MaPeT 的新型自监督预训练方法，旨在提高基于视觉任务的性能并解决输入噪声和不一致性问题，实验结果表明其在 ImageNet 数据集上具有与竞争对手相媲美的性能。

Jun, 2023

A-JEPA：联合嵌入预测架构能够聆听

本文提出了一种基于掩模建模原则将视觉模型成功应用于音频的方法，通过在潜在空间中进行预测。我们引入了基于音频的联合嵌入预测架构（A-JEPA），这是一种简单的自监督学习方法，通过上下文编码器对可见音频频谱图块进行编码，并预测在精心设计的位置上采样的区域的表示。在多个音频和语音分类任务上，A-JEPA 在结构上采用了 Vision Transformers，我们发现它具有极强的可扩展性，并创造了新的最先进性能，超过了使用外部监督预训练的其他最新模型。

Nov, 2023

使用 ROI-Exchange 策略的选择性随机位置嵌入 Transformer 用于早期检测膝骨关节炎

本文提出了一种新的基于 ViT 模型的数据增强方法，采用 Selective Shuffled Position Embedding 和 ROI-exchange 策略，以提高深度神经网络在髌骨关节炎早期检测中的分类性能。实验结果表明，该方法可以显著提高模型的分类性能。

Apr, 2023

使用有效接受字段理解视觉变换器的高斯注意偏差

本研究提出了一种使用高斯注意偏差来指导位置嵌入的方法，以提高视觉转换器（ViTs）在图像分类、目标检测和语义分割等任务中的性能。研究表明，使用这种方法不仅有助于 ViT 理解图像，还提高了在各种数据集上的性能。

May, 2023

使用增强视觉 Transformer 进行图像重建

本文提出了一个基于 Vision Transformer (ViT) 的图像重构框架，利用 4 种优化技术和生成对抗网络（GANs）启发的对抗性损失函数，用于图像去噪和修复，实验表明该框架在结构相似性（SSIM）方面比 U-Net 模型高出超过 3.5％，对于这两个任务，提议的增强算法进一步展示了超过基准的 extasciitilde5％SSIM 的改进。

Jul, 2023