DPT: 可变形基于块的 Transformer 用于视觉识别
本研究提出了 Deformable Video Transformer,利用动态预测小型视频数据块,根据运动信息决定模型在哪里观察视频,并优化变形注意机制,以获得更高的精度和更低的计算成本。
Mar, 2022
利用 Vision Transformer 结合 Derandomized Smoothing 进行逐步平滑的图像建模任务来训练并提高证明补丁防御机制的可证准确性,同时重构了原始的 ViT 的全局自注意结构以适用于在实际世界中的高效推理和部署。在 ImageNet 数据集上,在 2% 区域补丁攻击下,本文方法达到 41.70% 的证明准确度,比之前最佳方法高出近 1 倍(26.00%)。同时,本方法达到了 78.58% 的干净准确度,接近正常 ResNet-101 的准确度,并在 CIFAR-10 和 ImageNet 上实现最先进的干净和证明准确度。
Mar, 2022
为了进一步完善压缩向量得到的蒙版,我们提出了一种基于压缩向量的多阶段完善框架,并引入了 PatchDCT 方法,通过设计的分类器和回归器对蒙板进行分块、纠正、改善其细节,实验证明该方法在图像识别领域表现良好。
Feb, 2023
本研究提出了密集变换网络的构建方法,设计了不同于之前需要输入图像分割大小的神经网络结构,通过对使用高分辨率像素预测的自适应分割进行了验证,证明该方法在图像分割任务中取得了更好的表现。
May, 2017
本文提出了 DPatch,一种黑盒子对现代计算机视觉系统(如 Faster R-CNN 和 YOLO)的基于敌对的黑盒贴片攻击。与原始的敌对贴片只操纵图像级分类器不同,DPatch 同时攻击边界框回归和对象分类以禁用它们的预测,具有非常高的转移性且实践性强。
Jun, 2018
提出了一种基于自注意机制的无卷积操作的转化器和生成对抗网络(GAN)网络 —— 补丁翻译器用于图像超分辨率,实验证明该网络在超分辨率上的性能得到了显著提升。
Oct, 2023
X-MDPT 是一种新颖的扩散模型,用于姿势引导的人体图像生成,采用了基于掩模的扩散变换器,通过对潜在补丁的操作,与现有作品中常用的 Unet 结构有所不同。该模型包括三个关键模块:去噪扩散变换器,将条件整合成单一向量进行扩散过程的聚合网络,以及通过参考图像中的语义信息增强表示学习的掩模交叉预测模块。X-MDPT 在更大模型下展示了可扩展性,在 DeepFashion 数据集上优于现有方法,并在训练参数、训练时间和推理速度方面表现出高效性。我们的 33MB 紧凑模型在 FID 为 7.42 时超过了使用 11 倍少参数的先前 Unet 潜在扩散方法(FID 8.07)。我们的最佳模型相比像素级扩散使用了 2/3 的参数,并实现了 5.43 倍的更快推理。
Feb, 2024
本篇论文尝试解决计算机视觉中 transformers 架构应用在视频数据时遇到的问题,通过引入可学习的混合函数 PatchBlender,使得 transformers 成功编码视频数据的时间组成部分并提升了基础模型性能。
Nov, 2022
提出了一种新颖的 3D 变形器架构,利用可变形的补丁定位模块,改善了阿尔茨海默病和额颞型痴呆的差异诊断。通过结合传统的机器学习模型和脑结构体积,以更好地利用现有数据,提出了将基于变压器的模型与传统机器学习模型相结合的方法。我们的实验表明了所提方法的有效性,与最先进的方法相比,结果具有竞争力。此外,我们可以可视化变形的补丁位置,揭示用于确立每种疾病诊断的最相关脑区域。
Sep, 2023
本文提出了一种新的 Ray-Patch 解码器模型,可以有效地从 implicit representations 中解码出目标视图,将目标图像分成一组 patch,然后对于每个 patch 查询 transformer 以提取一组特征向量,最后使用卷积层将其解码为目标图像,相比以前的模型,我们的 Ray-Patch 解码可以将计算量减少两个数量级,同时保持全局注意力且维持特定任务指标。实验结果表明,我们的方法具有显著的渲染速度提升和相等的特定任务指标,适用于不同的基线和数据集。
May, 2023