使用块增强变压器提升普通话语音识别
通过重新审视 Conformer 架构的设计选择,我们提出了 Squeezeformer 模型,展示其在同一训练方案下一致优于当前最先进的 ASR 模型,取得了 7.5%,6.5%和 6.0%的字错率(WER)结果,比具有相同数量的 FLOPs 的 Conformer-CTC 更好 3.1%,1.4%和 0.6%。
Jun, 2022
本文提出了一种名为 Conformer 的语音识别(Automatic Speech Recognition)模型,结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点,在参数更少的情况下实现对于语音序列的局部和全局依赖的建模,并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%(未使用语言模型)和 1.9%/3.9%(使用外部语言模型)的字错率(Word Error Rate),表现超越了之前的基于 Transformer 和 CNN 的模型。
May, 2020
本文比较 E-Branchformer 和 Conformer 两种编码器在语音处理方面的性能,并表明 E-Branchformer 在大多数评估数据集上表现比 Conformer 更好,并且在训练期间更加稳定。
May, 2023
本研究采用基于 Conformer 的声学模型解决了自动语音识别中的鲁棒性问题,并在 CHiME-4 语料库的单声道 ASR 任务中经过测试,其使用 utterance-wise 归一化和说话人自适应的方式,相比经典的 wide residual 双向长短时记忆网络,减小了 18.3% 的模型大小,训练时间减少了 79.6%且相对误差率比 WRBN 低 8.4%。
Mar, 2022
我们提出了一种更快、更节省内存、性能更好的变压器模型 Zipformer,它通过在 U-Net 类似的编码器结构中进行中间堆栈的操作以较低的帧速率工作,重新组织块结构以提高效率,使用 BiasNorm 的修改形式来保留一些长度信息,新的激活函数 SwooshR 和 SwooshL 的表现优于 Swish,通过一个名为 ScaledAdam 的优化器进行更新尺度的调整,相对变化保持大致相同,并明确学习参数尺度,在 LibriSpeech、Aishell-1 和 WenetSpeech 数据集上进行了大量实验,证明了我们提出的 Zipformer 在与其他最先进的 ASR 模型相比的有效性。
Oct, 2023
本文介绍了 ESPnet 工具包中的最新成果,包括基于 Conformer 的新型架构的应用于自动语音识别、语音翻译、语音分离和文本转语音等各种任务的实验结果,具备高性能且与现有的 Transformer 模型相竞争性或超越其成果;同时我们通过公开的语料库和预训练模型减轻了之前模型搭建过程中的资源负担。
Oct, 2020
本研究提出了一种新的” 连接时序总结 “(CTS) 方法,它可以减少 Conformer 模型中 attention decoder 所需的 frames 数,提高解码效率,并且它能够在不损失 ASR 准确性的情况下降低解码预算,提高识别准确度.
Apr, 2022
提出了 Speechformer 的架构,该架构通过减少注意层中的内存使用,避免了初始的失真压缩,并根据更具信息的语言标准仅在较高级别上聚合信息,该架构在三种语言对 (en->de/es/nl) 上的实验表明了其有效性。
Sep, 2021
本文提出一种基于混合 CTC / 注意力模型的 ResNet-18 和卷积扩充变压器 (Conformer),可以进行端到端的训练。在语音识别方面取得了具有突破性的进展,实现了最先进效果。
Feb, 2021
本研究提出了一种基于 Conformer 的架构,即 Aformer,利用大型非方言和有限口音训练数据从声学信息中提取互补的音频信息,并提出了多通道训练和三种跨信息融合方法,用于从 Aformer 的通用编码器和口音编码器中有效地融合信息,实验结果表明,该方法在口音英语和普通话 ASR 任务上相对于强基线 Conformer 的 6 个领域内外测试数据的单词 / 字符错误率降低了 10.2%到 24.5%。
Jun, 2023