基于目标和上下文感知 Transformer 的高效零样本视觉检索
该论文提出了一种新颖的 Transformer 风格模块,即 Contextual Transformer (CoT) 块,它完全利用输入键之间的情境信息来指导动态注意力矩阵的学习,从而增强了视觉表示能力,可作为更强大的骨干网。
Jul, 2021
针对少样本目标检测的问题,我们提出了一种基于 Context-Transformer 的深度迁移学习方法,该方法可以巧妙地利用源域目标知识,从少量样本中自动利用上下文信息以提高检测器的区分能力,并在 popular SSD-style 检测器中灵活嵌入,从而成为端到端少样本学习的即插即用模块。实验结果表明,我们的框架优于最新的 state-of-the-art 方法。
Mar, 2020
通过使用多头自注意力结构,结合架构搜索方法,本研究提出了一种高效且有效的高分辨率图像分割神经网络架构,名为 HyCTAS,通过在多个分辨率的分支之间融合轻量级卷积层和内存高效的自注意力层,提高了语义分割任务的性能。
Mar, 2024
Transformer 模型中,将外观和运动信息简单地串联起来,分别在多个特征阶段进行特征融合,可以明显提高性能,但计算量较大。通过经验分析,我们发现 Transformer 在不同阶段学习到的注意力依赖具有完全不同的特性,于是我们提出了两种 Transformer 变体:Context-Sharing Transformer (CST) 和 Semantic Gathering-Scattering Transformer (SGST),分别用于低层和高层特征融合。相比于基线模型,我们的方法在速度上提升了 13 倍,并实现了新的 ZVOS 任务的最佳性能。
Aug, 2023
本文介绍了一种利用稀疏上下文变换器(SCT)的新方法,在目标域仅有少量训练图像的情况下,有效地利用源域的物体知识,并自动从目标域中学习稀疏上下文,通过结合不同相关线索来增强学习检测器的区分能力并降低类别混淆。两个具有挑战性的少样本目标检测基准测试结果表明,该方法与相关最新技术相比具有竞争性能。
Feb, 2024
本论文提出一种新的 ViT 结构,称为 NomMer,实现了动态提名协同全局 - 局部上下文的功能。NomMer 在 ImageNet 数据集上取得了 84.5%的 Top-1 分类精度,并在目标检测和语义分割等密集预测任务上表现出良好性能。
Nov, 2021
本文提出了一种通用的跨注意力变换器模块来解决一次性物体检测中难以准确利用语义相似度和泛化的问题,并通过在 COCO、VOC 和 FSOD 等数据集上的大量实验表明其有效性和效率。
Apr, 2021
我们提出了一种新颖的单图像目标检测方法,称为 Context Enhanced TRansformer (CETR),通过将时间上下文引入 DETR 并使用新设计的内存模块。
Dec, 2023
本文提出了一种名为 CATrans 的新型分层结构,通过 Relation-guided Context Transformer 和 Relation-guided Affinity Transformer,将支持和查询二者之间的上下文信息和相似度信息有效结合,用于 Few-shot segmentation 任务,实验表明该方法优于现有的基于 Transformer 的方法。
Apr, 2022