去噪视觉变换器
本文提出了一个基于 Vision Transformer (ViT) 的图像重构框架,利用 4 种优化技术和生成对抗网络(GANs)启发的对抗性损失函数,用于图像去噪和修复,实验表明该框架在结构相似性(SSIM)方面比 U-Net 模型高出超过 3.5%,对于这两个任务,提议的增强算法进一步展示了超过基准的 extasciitilde5%SSIM 的改进。
Jul, 2023
通过引入 Faithful ViTs 和 Denoised Diffusion Smoothing 方法,本研究改进了 Vision Transformers 在解释准确性和对抗攻击下的鲁棒性,并在维持注意力解释性方面取得了更高的可靠性。
Nov, 2023
自本文中,我们对各种自监督视觉变换器(ViTs)进行了比较分析,重点研究了它们的局部代表能力。我们设计了一个评估框架,分析了在少样本语义分割、实例识别、目标检索和跟踪等背景下的局部表示质量。我们发现,基于对比学习的方法如 DINO 产生了更通用的局部表示,可以立即应用于无参数调整的下游任务,而掩蔽图像建模的方法中学习的嵌入具有高方差特征,对于大多数下游任务没有有用信息。此外,通过对本工作的基准和 Scale-MAE 的分析,我们证明了移除这些高方差特征对 k-NN 算法的改进。最后,我们发现 DINOv2 在多训练数量级的数据上预训练的模型在物体实例检索方面表现比计算消耗较小的 DINO 模型更差。
Dec, 2023
本论文提出了一种统一的 ViT 压缩框架,其中使用了修剪、跳跃层和知识蒸馏等三种有效技术,经过在 ImageNet 数据集上的实验验证,我们的方法在保证精度的前提下有效压缩 Vision Transformers,比目前已有的压缩方法表现更优。
Mar, 2022
我们提出了一种新颖的方法,用于生成用于 3D 物体检测的具有多个相机输入的 DetR-like ViT 的显著性图。我们的方法基于原始注意力,比基于梯度的方法更高效。通过大量的扰动测试,我们在 nuScenes 数据集上评估了所提出的方法,并展示了其在视觉质量和定量指标方面优于其他可解释性方法。我们还展示了在转换器的不同层之间聚合注意力的重要性。我们的工作有助于开发 ViT 的可解释 AI,通过更透明地了解 AI 模型的内部工作,可以提高人们对 AI 应用的信任。
Dec, 2023
本文研究使用预训练的 Vision Transformer (ViT) 提取的深度特征作为密集的视觉描述符,提出了基于无监督 DINO-ViT 模型提取特征的简单方法,可用于各种领域的相关应用,包括共分割、语义对应等。经过大量定量和定性分析得出了符合竞争性的结果,并且较之前的无监督方法有了很大的提高。
Dec, 2021
本文探讨使用自我蒸馏方法解决视觉 Transformer 在领域泛化问题上的过拟合问题,并在五个具有挑战性的数据集上实现了显著的性能提升,同时表现出了对最新领域泛化方法的优异性。
Jul, 2022
提供额外的令牌以填补低信息背景区域中高范数令牌的内部计算,从而修复监督和自监控模型的问题,实现密集视觉预测任务的自监控视觉模型的最新技术,使用更大模型进行对象发现,为下游视觉处理提供更平滑的特征图和注意力图。
Sep, 2023
本文研究了视觉 transformer 在基于扩散的生成学习中的有效性,并提出了一种新的模型 Diffusion Vision Transformers(DiffiT),该模型在多个条件和无条件综合任务中取得了最新的基准成绩,生成了高保真度图片。
Dec, 2023
本研究探讨自监督学习是否为 Vision Transformer (ViT) 提供了与卷积网络 (convnets) 相比更为突出的新特性,发现自监督 ViT 特征明确包含图像的语义分割信息,在 ImageNet 数据集中取得了 78.3% 的 top-1 准确率,并将这些发现用于自监督方法 DINO 中,通过线性评估,使 ViT-Base 在 ImageNet 数据集中取得了 80.1% 的 top-1 准确率。
Apr, 2021