使用 ROI-Exchange 策略的选择性随机位置嵌入 Transformer 用于早期检测膝骨关节炎
本文提出了一个基于 Vision Transformer (ViT) 的图像重构框架,利用 4 种优化技术和生成对抗网络(GANs)启发的对抗性损失函数,用于图像去噪和修复,实验表明该框架在结构相似性(SSIM)方面比 U-Net 模型高出超过 3.5%,对于这两个任务,提议的增强算法进一步展示了超过基准的 extasciitilde5%SSIM 的改进。
Jul, 2023
使用 RoPE(Rotary Position Embedding)在 Vision Transformer(ViT)中的实际实现对 2D 视觉数据进行了综合分析,结果显示 RoPE 在推理时能够保持精度的同时提高图像分辨率,从而改善 ImageNet-1k、COCO 检测和 ADE-20k 分割的性能。此研究提供了将 RoPE 应用于 ViT 的详细指南,承诺在最小的额外计算开销下提高主干性能。
Mar, 2024
在这篇论文中,我们提出了一种新颖的 RoI 特征提取器 Semantic RoI Align(SRA),它能够在各种变换下提取不变的 RoI 特征,用于两阶段检测器。我们通过引入语义注意力模块,利用 RoI 内的全局和局部语义关系自适应地确定不同采样区域。我们还提出了动态特征采样器 Dynamic Feature Sampler,根据 RoI 的宽高比动态采样特征,以提高 SRA 的效率。另外,我们引入了一种新的位置嵌入 Area Embedding,通过改进采样区域表示提供更准确的位置信息给 SRA。实验证明,我们的模型在比基准模型轻微计算开销的情况下显著优于其他模型,并具有出色的泛化能力,可以改善各种最先进的主干网络和检测方法的性能。
Dec, 2023
本文提出了一个 RoI Transformer 模型用于解决在航拍图像中检测旋转目标时,水平建议区域(HRoI)和旋转建议区域(RRoI)之间可能会引入不匹配的问题。该模型具有轻复杂度和高性能,提出的模型在两种常见而具有挑战性的遥感数据集 DOTA 和 HRSC2016 上表现出了最先进的性能。
Dec, 2018
使用视觉变换器模型 MaxViT 和 EVA-02,该报告概述了我们在 IEEE SPS VIP Cup 2023: Ophthalmic Biomarker Detection 竞赛中的方法,通过从多样化病人获得的光学相干断层扫描图像中识别生物标志物,使我们的解决方案成为竞赛中表现最佳的解决方案。
Oct, 2023
本文提出了一种利用 Swin transformer 作为自编码器网络的主要构建模块,将二进制 ROI 掩模集成到不同层的网络中,以提供空间信息指导。实验结果表明,这种模型在 ROI PSNR 方面优于其他方法,在 COOCO 验证集上具有更好的目标检测和实例分割性能。
May, 2023
使用不同的卷积神经网络和 Transformer 方法以及广泛的数据增强技术,在三个医学图像数据集上比较了它们的表现,并将视觉 Transformer 模型与其他先进的预训练 CNN 网络进行了评估和比较,在分类不同的解剖结构、所见和异常方面,我们的 Transformer 模型优于或更有效,比 CNN 基于的方法有所改进,建议将其用作算法开发的新基准算法。
Apr, 2023
我们发现 Vision Transformers(ViTs)中存在量化伪像,这是由于这些架构中固有的图像令牌化步骤引起的。我们提出了一种零样本方法来改善预训练 ViTs 处理空间量化的方式。具体而言,我们建议使用通过子标记空间平移扰动输入图像获得的特征集合,灵感来自于随机共振 —— 这是一种传统上应用于气候动力学和信号处理的方法。我们称此方法为 “随机共振变压器”(SRT),我们显示出 SRT 可以有效地超分辨率预训练 ViTs 的特征,捕捉到更多的局部细粒度结构,这些结构在令牌化的方式下可能会被忽视。SRT 可以应用在任何层、任何任务上,并且不需要任何微调。前者的优点在于应用于单目深度预测时变得明显,在三种不同架构上,我们展示了在 RMSE 和 RMSE-log 指标上应用 SRT 在中间 ViT 特征上而不是集成模型输出的基线模型性能平均分别提高了 4.7% 和 14.9%。在半监督视频目标分割中,SRT 也在所有指标上均改进了基线模型,平均提高了 2.4% 的 F&J 分数。我们还进一步展示了这些量化伪像可以通过自蒸馏在一定程度上进行衰减。在无监督显著区域分割上,SRT 相对于基准模型平均提高了 2.1% 的 maxF 指标。最后,尽管 SRT 仅基于像素级特征进行操作,但它也适用于像图像检索和目标发现这样的非密集预测任务,分别产生了一致的改进效果,最多分别提高了 2.6% 和 1.0%。
Oct, 2023
提出了一种区域感知的开放词汇视觉 Transformer(RO-ViT)预训练方法,其中使用区域级别的位置嵌入来代替整个图像位置嵌入,取得了在 LVIS 和 COCO 开放词汇检测基准测试的最佳效果。
May, 2023
在这篇论文中,我们提出了一种新颖的 ROI 视觉转换方法(ROI-ViT),通过多尺度交叉注意力融合生成和更新感兴趣区域(ROIs),从而解决了识别有害生物时的复杂背景和尺度问题,实验结果表明该方法相比其他先进模型表现更好,特别是在具有复杂背景和小尺寸的新数据集上保持了高的识别准确率。
Dec, 2023