动态局部关注的可微窗口
本文介绍了一种名为动态窗口视觉 Transformer (DW-ViT) 的新型方法,其采用动态多尺度窗口对模型性能的影响进行了探索,并通过对三个数据集的详细性能评估,与相关的最新技术方法相比,DW-ViT 表现出最佳性能。
Mar, 2022
本研究提出了一种基于动态窗口的变压器架构 DWFormer,通过自注意机制动态划分样本窗口,捕捉语音本地的精细的时间重要信息,并考虑窗口间的全局信息交互,实现了在情感识别方面的前沿突破。
Mar, 2023
DwinFormer 是一个层级编码器解码器架构,具有方向窗口(Dwin)注意力和全局自注意力(GSA)用于特征编码,通过在水平、垂直和深度方向分别执行注意力,在输入特征图的这些方向体积中有效地捕捉局部和全局信息,实验证明它在医学图像分割方面优于当前最先进的方法。
Jun, 2024
该论文提出了一种动态分组注意力 (DG-Attention) 和一个通用的 DGT 视觉转换器的背景,可以在多个常见的视觉任务中超越现有技术,并动态地将所有查询分成多个组,为每个组选择最相关的密钥 / 值。
Mar, 2022
本文介绍动态窗口方法和注意机制应用在组合范畴语法超标记的任务上,通过对局部上下文的关注来为每个单词分配词汇类别,同时应用 dropout 技术来提高性能。实验结果表明该方法在标准测试集上达到最佳表现。
Oct, 2016
本文探讨了 Local Vision Transformer 的前身 ——Vision Transformer 和其一种局部注意力机制 —— 局部连接的形式,并从 network regularization 角度分析了其权重的稀疏性、共享性以及动态性。此外作者还针对这种局部连接进行的实验证明它的有效性,并提供了开源实现代码。
Jun, 2021
最近,视觉变换器在各种计算机视觉任务中表现出色,包括体素三维重建。然而,视觉变换器的窗口不是多尺度的,并且窗口之间没有连接,这限制了体素三维重建的准确性。因此,我们提出了一种移位窗口注意力体素三维重建网络。据我们所知,这是第一个将移位窗口注意力应用于体素三维重建的工作。在 ShapeNet 上的实验结果验证了我们的方法在单视图重建方面达到了 SOTA 准确性。
Dec, 2023
提出了一种选择性窗口注意力网络(SWAN)来解决领域知识和广泛搜索需求的窗口大小确定的问题,该模型在信任预测任务上显著优于传统窗口选择和基于神经网络的基线模型。
Dec, 2023
提出了 AxWin Attention,结合局部窗口和轴向视图,将上下文信息建模在局部和全局信息上;并基于 AxWin Attention 开发了上下文感知的视觉 Transformer,名为 AxWin Transformer,其在分类和下游分割检测任务中优于现有技术方法。
May, 2023