针对视觉识别的上下文转换网络

CVPRJul, 2021

Contextual Transformer Networks for Visual Recognition

Yehao Li, Ting Yao, Yingwei Pan, Tao Mei

TL;DR该论文提出了一种新颖的 Transformer 风格模块，即 Contextual Transformer (CoT) 块，它完全利用输入键之间的情境信息来指导动态注意力矩阵的学习，从而增强了视觉表示能力，可作为更强大的骨干网。

Abstract

transformer with self-attention has led to the revolutionizing of natural language processing field, and recently inspires the emergence of trans

transformer self-attention contextual transformer visual recognition cotnet

发现论文，激发创造

共组卷积 - 注意力图像变换器

本文提出了一种基于变压器的图像分类器 Co-scale conv-attentional image Transformers (CoaT)，它具有多尺度和上下文建模能力，其中的 co-scale 和卷积注意机制可以帮助实现表示和通信，且在 ImageNet 数据集上的分类表现优于同样大小的卷积神经网络和图像 / 视觉变压器，可用于下游的计算机视觉任务。

Apr, 2021

CoAtNet：结合卷积和注意力处理不同数据尺寸

本篇研究介绍了 CoAtNets，这是一种基于 transformers 和卷积神经网络的混合模型，能够在图像识别领域取得最好的效果，相较于传统的 transformers 和卷积神经网络具备更好的泛化性能和效率。

Jun, 2021

上下文感知自注意力网络

通过上下文信息来提高自注意力网络有效性的研究表明，利用内部嵌入全局和深度上下文的方式来上下文化查询和键层变换可以提高翻译任务的性能.

Feb, 2019

XCiT: 跨协方差图像变换器

本文介绍了基于交叉协方差矩阵的交叉协方差注意力（XCA），用于高分辨率图像的高效处理。文章基于 XCA 构建了交叉协方差图像变换器（XCiT），并在多个视觉基准测试中取得了优异的结果，包括 ImageNet-1k 上的图像分类和自监督特征学习，COCO 上的目标检测和实例分割以及 ADE20K 上的语义分割。

Jun, 2021

聚焦 Transformer：上下文缩放的对比训练

提出了一种名为 Focused Transformer（FoT）的技术，通过对称的学习过程来增强（键，值）空间的结构，从而提供更长的上下文长度，有效地解决了大型语言模型在处理长文本时的局限性。

Jul, 2023

全局上下文视觉 Transformer

本文介绍了一种新的计算机视觉模型 GC ViT，核心是全局上下文自注意力模块，结合标准本地自注意力来有效地建模长程和短程空间交互关系，解决了 ViTs 的归纳偏差问题，在图像分类、对象检测和语义分割等任务中实现了新的最高性能表现。

Jun, 2022

面向上下文的语音识别变换器转录器

本文介绍了一种基于上下文的自动语音识别系统：context-aware transformer transducer (CATT) 网络，通过多头注意力机制、编码上下文数据和使用 BERT 等技术方法，取得了比基线 transformer transducer 和现有深度上下文模型分别提高了 24.2% 和 19.4% 的词错误率性能提升。

Nov, 2021

基于瓶颈结构的 Transformer 用于视觉识别

BoTNet 是一种基于自注意力机制的视觉模型，可以应用于图像分类、目标检测和实例分割，通过在 ResNet 的最后三个 bottleneck 块中使用自注意力代替空间卷积，能够大幅提高实例分割和目标检测的性能，同时减少参数量和计算开销。BoTNet 的设计表明 ResNet bottleneck 块中的自注意力可以视为 Transformer 块。在 COCO Instance Segmentation 基准测试中，BoTNet 能够取得 44.4% 的 Mask AP 和 49.7% 的 Box AP，超过了之前最佳单模型和单尺度结果 ResNeSt，同时在 ImageNet 基准测试中，BoTNet 的简单改进能够取得 84.7% 的 top-1 准确率，比 EfficientNet 在 TPU-v3 上计算速度快 1.64 倍。这一简单而有效的方法有望成为未来自注意力视觉模型研究的强有力基准。

Jan, 2021

跨注意力时空上下文变换器用于历史地图语义分割

提取历史地图的信息是一项具有挑战性的任务，尤其是在考虑到数据依赖性不确定性的情况下，我们提出了一种融合时空特征和交叉注意力变换器的 U-Net 网络（U-SpaTem），该模型在分割任务上表现出比其他方法更好的性能。

Oct, 2023

基于目标和上下文感知 Transformer 的高效零样本视觉检索

该研究提出了一种零样本深度学习架构 TCT（Target and Context-aware Transformer），结合目标和上下文信息进行图像搜索，表现出类人的搜索效率，在具有挑战性的视觉搜索任务中超越最先进的模型，并在具有不协调上下文的不变视觉搜索下展现出灵活的搜索方式。

Nov, 2022