针对视觉识别的上下文转换网络
本文提出了一种基于变压器的图像分类器 Co-scale conv-attentional image Transformers (CoaT),它具有多尺度和上下文建模能力,其中的 co-scale 和卷积注意机制可以帮助实现表示和通信,且在 ImageNet 数据集上的分类表现优于同样大小的卷积神经网络和图像 / 视觉变压器,可用于下游的计算机视觉任务。
Apr, 2021
本篇研究介绍了 CoAtNets,这是一种基于 transformers 和卷积神经网络的混合模型,能够在图像识别领域取得最好的效果,相较于传统的 transformers 和卷积神经网络具备更好的泛化性能和效率。
Jun, 2021
本文介绍了基于交叉协方差矩阵的交叉协方差注意力(XCA),用于高分辨率图像的高效处理。文章基于 XCA 构建了交叉协方差图像变换器(XCiT),并在多个视觉基准测试中取得了优异的结果,包括 ImageNet-1k 上的图像分类和自监督特征学习,COCO 上的目标检测和实例分割以及 ADE20K 上的语义分割。
Jun, 2021
提出了一种名为 Focused Transformer(FoT)的技术,通过对称的学习过程来增强(键,值)空间的结构,从而提供更长的上下文长度,有效地解决了大型语言模型在处理长文本时的局限性。
Jul, 2023
本文介绍了一种新的计算机视觉模型 GC ViT,核心是全局上下文自注意力模块,结合标准本地自注意力来有效地建模长程和短程空间交互关系,解决了 ViTs 的归纳偏差问题,在图像分类、对象检测和语义分割等任务中实现了新的最高性能表现。
Jun, 2022
本文介绍了一种基于上下文的自动语音识别系统:context-aware transformer transducer (CATT) 网络,通过多头注意力机制、编码上下文数据和使用 BERT 等技术方法,取得了比基线 transformer transducer 和现有深度上下文模型分别提高了 24.2% 和 19.4% 的词错误率性能提升。
Nov, 2021
BoTNet 是一种基于自注意力机制的视觉模型,可以应用于图像分类、目标检测和实例分割,通过在 ResNet 的最后三个 bottleneck 块中使用自注意力代替空间卷积,能够大幅提高实例分割和目标检测的性能,同时减少参数量和计算开销。BoTNet 的设计表明 ResNet bottleneck 块中的自注意力可以视为 Transformer 块。在 COCO Instance Segmentation 基准测试中,BoTNet 能够取得 44.4% 的 Mask AP 和 49.7% 的 Box AP,超过了之前最佳单模型和单尺度结果 ResNeSt,同时在 ImageNet 基准测试中,BoTNet 的简单改进能够取得 84.7% 的 top-1 准确率,比 EfficientNet 在 TPU-v3 上计算速度快 1.64 倍。这一简单而有效的方法有望成为未来自注意力视觉模型研究的强有力基准。
Jan, 2021
提取历史地图的信息是一项具有挑战性的任务,尤其是在考虑到数据依赖性不确定性的情况下,我们提出了一种融合时空特征和交叉注意力变换器的 U-Net 网络(U-SpaTem),该模型在分割任务上表现出比其他方法更好的性能。
Oct, 2023
该研究提出了一种零样本深度学习架构 TCT(Target and Context-aware Transformer),结合目标和上下文信息进行图像搜索,表现出类人的搜索效率,在具有挑战性的视觉搜索任务中超越最先进的模型,并在具有不协调上下文的不变视觉搜索下展现出灵活的搜索方式。
Nov, 2022