- DaViT: 双注意力视觉 Transformer
本文提出 Dual Attention Vision Transformers (DaViT) 网络,该网络通过自我注意机制能够捕获全局信息,同时保持计算效率,并在图片分类任务上取得了最先进的表现。
- CVPR少样本图像分类的匹配特征集
本文提出了一种称为 SetFeat 的方法,将现有特征提取器改为从图像中提取一组特征向量,进而实现更好地将基类的富表示性转移到 few-shot 类中。
- CMKD: 基于 CNN/Transformer 交替模型知识蒸馏的音频分类
本文研究了卷积神经网络和自注意力机制模型之间的交互作用,通过知识蒸馏将它们作为师生模型相互训练,在 FSD50K、AudioSet 和 ESC-50 等数据集上取得了新的最好成绩。
- HTS-AT:一种用于声音分类和检测的层次化 Token - 语义音频变换器
本文介绍了一种采用分层结构和分词 - 语义模块的音频 Transformer 模型 HTS-AT,实现了音频分类和事件本地化的任务,并在三个数据集上取得了 SOTA 结果。相比于以往的音频 Transformer,HTS-AT 拥有更小的模 - AAAI注意力机制的快速蒙特卡罗近似
引入 Monte-Carlo Attention(MCA),一种随机化逼近方法,旨在减少 Transformer 架构中的自注意机制的计算成本,并通过近似矩阵乘法对输入令牌进行编码,使得计算低关注度的输入令牌时具有弛容性,从而降低了注意力复 - 外部注意力增强自注意力,实现常识问答人类水平
该论文提出了一种名为 KEAR 的系统,即知识化外部关注作用于常识推理,能够显著提高现有 AI 系统的性能,在 CommonsenseQA 上达到了人类水平的正确率。
- AdaViT: 自适应视觉 Transformer 用于高效图像识别
本文提出了 AdaViT,一个自适应的计算框架,旨在提高视觉变换器的推理效率,而只有 0.8%的准确率下降,并在不同的计算预算条件下实现了良好的效率 / 准确性平衡。
- AAAI动态图上的事件检测
本文提出了 DyGED,一种深度学习模型,在动态图上进行事件检测,其学习了图形宏观动态与标记事件之间的关联,并有效地结合了结构和时间自我关注机制,实验证明在事件检测的准确性上优于其他解决方案高达 8.5%,且比流行的替代方案更具可扩展性。
- ICCV自注意力在医学图像分析中的效果研究
本文全面比较了各种最先进的自注意机制在多个医学图像分析任务中的效果,并通过定量、定性和临床用户调查,旨在深入了解自注意在医学计算机视觉任务中的影响。
- CVPRDynamic Head: 统一物体检测注意力头
本文提出了一种新型的动态头框架,通过将特征级别之间的多个自注意力机制、空间位置之间的多个自注意力机制以及任务感知中的输出信道之间的多个自注意力机制相互结合,实现了在物体检测中头部统一化的目标,大幅改善了物体检测头部的表示能力,并且在 COC - ICCVConformer:局部特征耦合全局表示用于视觉识别
本论文提出了一种名为 Conformer 的混合网络结构,利用卷积操作和 self-attention 机制进行增强表示学习,可最大程度地保留局部特征和全局表示,并通过实验证明,在可比较的参数复杂性下,Conformer 在 ImageNe - 基于 Transformer 的多模态脑肿瘤分割
本文提出了使用 Transformer 和 3D CNN 实现 MRI 脑肿瘤分割的新网络 TransBTS。该网络同时利用全局和局部特征进行分割,并在 BraTS 2019 和 2020 数据集上取得了当前最高水平的分割效果。
- 线性变换器秘密是快速权重编程器
本研究发现线性化自注意力机制与 90 年代早期的快速权重控制器存在正式等价,提出了一种基于增量规则编程指令的快速权重编程器,用以克服近期线性化 softmax 注意力变体的存储容量限制,以及提高动态学习率的计算效率,在合成检索问题以及标准机 - 自动检测阿尔茨海默病的可解释卷积神经网络(C-Attention Network)
本文提出了三种可解释的深度学习体系结构,基于患者的语言能力自动检测阿尔茨海默病患者。这些体系结构使用词性特征、语言嵌入特征或这两种特征的统一体系结构,并使用自注意机制和可解释的一维卷积神经网络生成模型操作的两种类型解释:类内解释和类间解释。 - ACL高速公路变压器:自门控增强自注意网络
通过将 LSTM 并入已有的 multi-headed dot product attention 机制中作为 gated component self-dependency units,使信息流动更加顺畅,从而提高了在序列学习任务中的性能 - CVPR视频目标检测的记忆增强全局 - 局部聚合
本文提出一种基于记忆增强的全局局部聚合(MEGA)网络,该网络融合了全局语义信息和局部定位信息,并通过新设计的长期记忆模块让关键帧可以获得比之前任何方法更多的内容,从而在 ImageNet VID 数据集上取得了最先进的性能。
- 深度 Transformer 模型用于时间序列预测:以流感流行为例
使用基于 Transformer 的机器学习模型,利用自我关注机制从时间序列数据中学习复杂模式和动态,可以准确预测流感样疾病 (ILI) 等时间序列数据,并已超越当前领先的方法。
- 图注意力自编码器
本文提出了一种名为 GATE 的神经网络结构,用于对图结构数据进行无监督表示学习,结合了自我注意机制,通过编码器 / 解码器层实现图结构输入和节点属性的重构,定量地评估在许多节点分类基准数据集上的表现。