FusionFormer:在 Transformer 中融合操作以实现高效流式语音识别
通过重新审视 Conformer 架构的设计选择,我们提出了 Squeezeformer 模型,展示其在同一训练方案下一致优于当前最先进的 ASR 模型,取得了 7.5%,6.5%和 6.0%的字错率(WER)结果,比具有相同数量的 FLOPs 的 Conformer-CTC 更好 3.1%,1.4%和 0.6%。
Jun, 2022
本文提出了一种名为 Conformer 的语音识别(Automatic Speech Recognition)模型,结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点,在参数更少的情况下实现对于语音序列的局部和全局依赖的建模,并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%(未使用语言模型)和 1.9%/3.9%(使用外部语言模型)的字错率(Word Error Rate),表现超越了之前的基于 Transformer 和 CNN 的模型。
May, 2020
本文章提出一种基于自注意力机制和 MLP 模块的可定制语音转录模型 Branchformer,其可以同时提取全局和局部依赖关系,并且在多项基准测试上均胜过了 Transformer 和 cgMLP,与 Conformer 的表现相当。此外,该模型具有双分支结构,可以降低计算复杂度。
Jul, 2022
我们提出了一种更快、更节省内存、性能更好的变压器模型 Zipformer,它通过在 U-Net 类似的编码器结构中进行中间堆栈的操作以较低的帧速率工作,重新组织块结构以提高效率,使用 BiasNorm 的修改形式来保留一些长度信息,新的激活函数 SwooshR 和 SwooshL 的表现优于 Swish,通过一个名为 ScaledAdam 的优化器进行更新尺度的调整,相对变化保持大致相同,并明确学习参数尺度,在 LibriSpeech、Aishell-1 和 WenetSpeech 数据集上进行了大量实验,证明了我们提出的 Zipformer 在与其他最先进的 ASR 模型相比的有效性。
Oct, 2023
NormFormer 结构通过在每一层中添加三种规范化操作,即经过自注意力后的层规范化、自注意力输出的头缩放以及在第一个全连接层后的层规范化来解决 Pre-LayerNorm transformer 在预训练过程中梯度幅度失配的问题。与基线模型相比,NormFormer 无需额外计算成本 (+0.4% 参数增加),对不同规模的语言模型的预训练感知度和下游任务表现都有所改善。此外,NormFormer 结构能够在相同的计算预算下比基线模型更快达到相等的预训练感知度,或者以更小的预训练感知度达到更好的训练效果。用 NormFormer 结构进行的掩蔽语言建模可将预训练过程的 GLUE 性能提高 1.9%。
Oct, 2021
本文提出 InterFormer 方法,使用双向特征交互模块和选择性融合模块实现局部和全局特征的交互和融合,应用于自动语音识别领域,取得比 Transformer 和 Conformer 更好的性能表现。
May, 2023
本文比较 E-Branchformer 和 Conformer 两种编码器在语音处理方面的性能,并表明 E-Branchformer 在大多数评估数据集上表现比 Conformer 更好,并且在训练期间更加稳定。
May, 2023
本文比较了针对单调和原始 RNN-T 模型的几种预测网络结构,并在 Librispeech 和内部医疗对话数据集上报告了结果。其中提出了一种新的预测网络架构 N-Concat,表现优于其他。相比 LSTM 基线,我们获得了高达 4.1% 的相对 WER 改进,同时将预测网络参数减少了近一个数量级(8.4 倍)。
Jun, 2022
本文介绍了一种名为 HyperConformer 的语音识别结构,它通过引入高效的 HyperMixer 机制,实现了对于长输入序列较为经济的全局交互建模,并在可获得的训练数据限制下达到与或高于传统结构 Conformer 相似的识别表现。
May, 2023