InterFormer:自动语音识别的交互式局部和全局特征融合
通过将层标准化技术替换为批标准化技术并且对 Conformer 架构的激活函数进行简化和替换(用 ReLU),我们提出了一个名为 FusionFormer 的模型,它的推理速度比标准的 Conformer 模型快约 10%,而且效果相当。
Oct, 2022
借助基于 Transformer 的体系结构和注意力层,自动捕捉特征交互,并通过引入异构自注意层和 extsc {Hiformer} 模型在工业中应用,解决了将 Transformer 体系结构应用于网络规模推荐系统的挑战,证实了 extsc {Hiformer} 模型在关键参与度指标上的显著改善。
Nov, 2023
本文提出了一种名为 Conformer 的语音识别(Automatic Speech Recognition)模型,结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点,在参数更少的情况下实现对于语音序列的局部和全局依赖的建模,并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%(未使用语言模型)和 1.9%/3.9%(使用外部语言模型)的字错率(Word Error Rate),表现超越了之前的基于 Transformer 和 CNN 的模型。
May, 2020
本文提出了一种新的方法 HiFormer,它通过使用 Swin Transformer 模块和基于 CNN 的编码器设计了两种多尺度特征表示来有效地跨越 CNN 和 Transformer 进行医学图像分割。在编码器解码器结构的跳跃连接中,我们提出了 Double-Level Fusion(DLF)模块,以确保从两个上述表示中获得的全局和局部特征的细粒度融合。在各种医学图像分割数据集上的广泛实验表明,HiFormer 在计算复杂度、定量和定性结果方面优于其他基于 CNN、Transformer 和混合方法。
Jul, 2022
我们研究了基于 transformer 的单图像超分辨率方法,并发现 transformer 结构在捕捉低频信息方面更加擅长,但相较于卷积模型在构建高频表示方面容量有限。我们提出的 CRAFT 方法综合了卷积和 transformer 结构的优势,在多个数据集上实验结果表明,CRAFT 方法在参数更少的情况下比当前最先进的方法提高了 0.29dB。
Aug, 2023
提出了一种名为 InterFormer 的方法,使用大型 ViT 并在高性能设备上运行,通过轻量级 I-MSA 模块进行互动式分割,实现了计算效率更高、分割质量更好的实时高质量交互式分割,可在仅有 CPU 的设备上执行。
Apr, 2023
提出了一种新型的基于 Transformer 的网络结构 InstaFormer,用于实例感知的图像到图像的转换,可以有效地整合全局和实例级信息,通过自注意力模块在 Transformers 中考虑上下文信息,通过将通过边界框信息从内容特征中提取的实例级特征与这些标记相结合,我们的框架能够学习对象实例和全局图像之间的互动,从而提高实例感知能力,同时在标准 Transformer 中使用自适应实例归一化(AdaIN)代替层规范化(LayerNorm),以启用具有风格编码的多模式翻译。另外,为了提高实例感知能力和物体区域的翻译质量,介绍了一种实例级内容对比损失,定义了输入图像和翻译图像之间的对比损失。实验表明,与最新方法相比,我们的 InstaFormer 具有更好的性能。
Mar, 2022
本论文提出了一种名为 Conformer 的混合网络结构,利用卷积操作和 self-attention 机制进行增强表示学习,可最大程度地保留局部特征和全局表示,并通过实验证明,在可比较的参数复杂性下,Conformer 在 ImageNet 上优于 visual transformer(DeiT-B)2.3%,在 MSCOCO 上,相对于 ResNet-101,在目标检测和实例分割方面都优于它,具有成为通用主干网络的巨大潜力。
May, 2021
本文提出了用卷积学习输入表示替换变形器的正弦位置嵌入,并阐述其在提供长程关系方面的优势和优化特点,最终实现了在无额外语言模型文本下,librispeech 测试中 4.7%和 12.9%的字错率。
Apr, 2019
本文提出了一种新的层次化提取和匹配变形器 MatchFormer 来提高局部特征匹配的效率和鲁棒性,该方法结合自注意力和跨注意力在多尺度特征的层次化架构上提高匹配鲁棒性,并在室内姿势评估、室外姿势评估、单应性评估和图像匹配检测四个基准测试中均取得 state-of-the-art 的结果。
Mar, 2022