基于目标和上下文感知 Transformer 的高效零样本视觉检索

Nov, 2022

基于目标和上下文感知 Transformer 的高效零样本视觉检索

Efficient Zero-shot Visual Search via Target and Context-aware Transformer

Zhiwei Ding, Xuezhe Ren, Erwan David, Melissa Vo, Gabriel Kreiman...

TL;DR该研究提出了一种零样本深度学习架构 TCT（Target and Context-aware Transformer），结合目标和上下文信息进行图像搜索，表现出类人的搜索效率，在具有挑战性的视觉搜索任务中超越最先进的模型，并在具有不协调上下文的不变视觉搜索下展现出灵活的搜索方式。

Abstract

visual search is a ubiquitous challenge in natural vision, including daily tasks such as finding a friend in a crowd or searching for a car in a parking lot. Human rely heavily on relevant target features to perform goal-directed →

visual search zero-shot deep learning target modulation contextual modulation invariant visual search

发现论文，激发创造

针对视觉识别的上下文转换网络

该论文提出了一种新颖的 Transformer 风格模块，即 Contextual Transformer (CoT) 块，它完全利用输入键之间的情境信息来指导动态注意力矩阵的学习，从而增强了视觉表示能力，可作为更强大的骨干网。

Jul, 2021

基于时间上下文的真实世界视觉跟踪

提出了一种利用时间上下文的双层框架 (TCTrack)，用于实现更强大的现实世界视觉跟踪，并在特征提取和相似度图优化方面进行了改进。

Aug, 2023

Context-Transformer: 解决 Few-Shot 检测中的目标混淆问题

针对少样本目标检测的问题，我们提出了一种基于 Context-Transformer 的深度迁移学习方法，该方法可以巧妙地利用源域目标知识，从少量样本中自动利用上下文信息以提高检测器的区分能力，并在 popular SSD-style 检测器中灵活嵌入，从而成为端到端少样本学习的即插即用模块。实验结果表明，我们的框架优于最新的 state-of-the-art 方法。

Mar, 2020

基于混合卷积 - 变换器架构搜索的实时图像分割

通过使用多头自注意力结构，结合架构搜索方法，本研究提出了一种高效且有效的高分辨率图像分割神经网络架构，名为 HyCTAS，通过在多个分辨率的分支之间融合轻量级卷积层和内存高效的自注意力层，提高了语义分割任务的性能。

Mar, 2024

同构器：用于零样本视频目标分割的同构变换器

Transformer 模型中，将外观和运动信息简单地串联起来，分别在多个特征阶段进行特征融合，可以明显提高性能，但计算量较大。通过经验分析，我们发现 Transformer 在不同阶段学习到的注意力依赖具有完全不同的特性，于是我们提出了两种 Transformer 变体：Context-Sharing Transformer (CST) 和 Semantic Gathering-Scattering Transformer (SGST)，分别用于低层和高层特征融合。相比于基线模型，我们的方法在速度上提升了 13 倍，并实现了新的 ZVOS 任务的最佳性能。

Aug, 2023

稀疏上下文变换的小样本目标检测

本文介绍了一种利用稀疏上下文变换器（SCT）的新方法，在目标域仅有少量训练图像的情况下，有效地利用源域的物体知识，并自动从目标域中学习稀疏上下文，通过结合不同相关线索来增强学习检测器的区分能力并降低类别混淆。两个具有挑战性的少样本目标检测基准测试结果表明，该方法与相关最新技术相比具有竞争性能。

Feb, 2024

NomMer: 借助视觉 Transformer 提名协同上下文进行视觉识别

本论文提出一种新的 ViT 结构，称为 NomMer，实现了动态提名协同全局 - 局部上下文的功能。NomMer 在 ImageNet 数据集上取得了 84.5％的 Top-1 分类精度，并在目标检测和语义分割等密集预测任务上表现出良好性能。

Nov, 2021

CAT: 一种用于一次性目标检测的交叉注意力变换器

本文提出了一种通用的跨注意力变换器模块来解决一次性物体检测中难以准确利用语义相似度和泛化的问题，并通过在 COCO、VOC 和 FSOD 等数据集上的大量实验表明其有效性和效率。

Apr, 2021

上下文增强的单图像目标检测转换器

我们提出了一种新颖的单图像目标检测方法，称为 Context Enhanced TRansformer (CETR)，通过将时间上下文引入 DETR 并使用新设计的内存模块。

Dec, 2023

CATrans: Few-Shot 分割的上下文和亲和力变换器

本文提出了一种名为 CATrans 的新型分层结构，通过 Relation-guided Context Transformer 和 Relation-guided Affinity Transformer，将支持和查询二者之间的上下文信息和相似度信息有效结合，用于 Few-shot segmentation 任务，实验表明该方法优于现有的基于 Transformer 的方法。

Apr, 2022