Squeezeformer:自动语音识别的高效 Transformer
我们提出了一种更快、更节省内存、性能更好的变压器模型 Zipformer,它通过在 U-Net 类似的编码器结构中进行中间堆栈的操作以较低的帧速率工作,重新组织块结构以提高效率,使用 BiasNorm 的修改形式来保留一些长度信息,新的激活函数 SwooshR 和 SwooshL 的表现优于 Swish,通过一个名为 ScaledAdam 的优化器进行更新尺度的调整,相对变化保持大致相同,并明确学习参数尺度,在 LibriSpeech、Aishell-1 和 WenetSpeech 数据集上进行了大量实验,证明了我们提出的 Zipformer 在与其他最先进的 ASR 模型相比的有效性。
Oct, 2023
本文介绍了如何通过引入逐渐下采样的机制和新颖的分组注意力机制将 Conformer 架构的复杂性降至与有限计算预算相适应的情况。在 LibriSpeech 数据集上进行的实验说明,该架构相比于 Conformer 速度更快,性能更好,且包含更少的参数。
Aug, 2021
本文提出了一种名为 Conformer 的语音识别(Automatic Speech Recognition)模型,结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点,在参数更少的情况下实现对于语音序列的局部和全局依赖的建模,并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%(未使用语言模型)和 1.9%/3.9%(使用外部语言模型)的字错率(Word Error Rate),表现超越了之前的基于 Transformer 和 CNN 的模型。
May, 2020
本文介绍了一种名为 HyperConformer 的语音识别结构,它通过引入高效的 HyperMixer 机制,实现了对于长输入序列较为经济的全局交互建模,并在可获得的训练数据限制下达到与或高于传统结构 Conformer 相似的识别表现。
May, 2023
本文比较 E-Branchformer 和 Conformer 两种编码器在语音处理方面的性能,并表明 E-Branchformer 在大多数评估数据集上表现比 Conformer 更好,并且在训练期间更加稳定。
May, 2023
本研究采用基于 Conformer 的声学模型解决了自动语音识别中的鲁棒性问题,并在 CHiME-4 语料库的单声道 ASR 任务中经过测试,其使用 utterance-wise 归一化和说话人自适应的方式,相比经典的 wide residual 双向长短时记忆网络,减小了 18.3% 的模型大小,训练时间减少了 79.6%且相对误差率比 WRBN 低 8.4%。
Mar, 2022
本文介绍了 ESPnet 工具包中的最新成果,包括基于 Conformer 的新型架构的应用于自动语音识别、语音翻译、语音分离和文本转语音等各种任务的实验结果,具备高性能且与现有的 Transformer 模型相竞争性或超越其成果;同时我们通过公开的语料库和预训练模型减轻了之前模型搭建过程中的资源负担。
Oct, 2020
本文提出了一种基于 Conformer 的 Block-augmented Transformer 模型来更好地利用编码器和解码器中各块的互补信息,这个模型在 AISHELL-1 语音识别任务中性能优于当前的最新模型 Conformer,并且在测试集上取得了 4.29% CER(不使用语言模型)和 4.05% CER(使用外部语言模型)。
Jul, 2022
通过将层标准化技术替换为批标准化技术并且对 Conformer 架构的激活函数进行简化和替换(用 ReLU),我们提出了一个名为 FusionFormer 的模型,它的推理速度比标准的 Conformer 模型快约 10%,而且效果相当。
Oct, 2022