遮蔽拼图:一种用于视觉 Transformer 的多功能位置嵌入
本文提出了一种基于 Adversarial Positional Embedding (AdPE) 方法的无监督学习方式,旨在完善预测任务以避免学习仅适用于下游任务的低级特征,实验结果表明,该方法准确性能优于传统无监督学习以及不使用额外模型,数据集的视觉变换和不同网络架构等条件。
Mar, 2023
该研究论文使用了无需手工制作的数据增强方法来学习高度语义化的图像表示,引入了 I-JEPA 框架,通过从单个上下文块中预测同一图像中的各种目标块的表示来实现自我监督学习。实验结果表明,与 Vision Transformers 相结合,I-JEPA 具有高度的可扩展性和强大的下游性能。
Jan, 2023
本研究提出了一种名为 Multi-Scale Patch Embedding(MSPE)的方法,通过优化贴片嵌入,增强模型对分辨率变化的适应能力,在图像分类、分割和检测任务中通过消除对原始图像的调整,显著提高低分辨率输入的性能,并与现有方法在高分辨率输入方面表现相当。
May, 2024
我们介绍了一种新的基于 JEPA 的 masked modeling 目标 DMT-JEPA,通过计算特征相似性和使用轻量级交叉注意力头,将语义相似的邻域图像作为目标来生成具有辨别力的潜在目标,从而弥补了 JEPA 在理解局部语义方面的不足。
May, 2024
本研究提出了一种名为 MaPeT 的新型自监督预训练方法,旨在提高基于视觉任务的性能并解决输入噪声和不一致性问题,实验结果表明其在 ImageNet 数据集上具有与竞争对手相媲美的性能。
Jun, 2023
本文提出了一种基于掩模建模原则将视觉模型成功应用于音频的方法,通过在潜在空间中进行预测。我们引入了基于音频的联合嵌入预测架构(A-JEPA),这是一种简单的自监督学习方法,通过上下文编码器对可见音频频谱图块进行编码,并预测在精心设计的位置上采样的区域的表示。在多个音频和语音分类任务上,A-JEPA 在结构上采用了 Vision Transformers,我们发现它具有极强的可扩展性,并创造了新的最先进性能,超过了使用外部监督预训练的其他最新模型。
Nov, 2023
本文提出了一种新的基于 ViT 模型的数据增强方法,采用 Selective Shuffled Position Embedding 和 ROI-exchange 策略,以提高深度神经网络在髌骨关节炎早期检测中的分类性能。实验结果表明,该方法可以显著提高模型的分类性能。
Apr, 2023
本研究提出了一种使用高斯注意偏差来指导位置嵌入的方法,以提高视觉转换器(ViTs)在图像分类、目标检测和语义分割等任务中的性能。研究表明,使用这种方法不仅有助于 ViT 理解图像,还提高了在各种数据集上的性能。
May, 2023
本文提出了一个基于 Vision Transformer (ViT) 的图像重构框架,利用 4 种优化技术和生成对抗网络(GANs)启发的对抗性损失函数,用于图像去噪和修复,实验表明该框架在结构相似性(SSIM)方面比 U-Net 模型高出超过 3.5%,对于这两个任务,提议的增强算法进一步展示了超过基准的 extasciitilde5%SSIM 的改进。
Jul, 2023