ESPnet 工具包的最新进展: Conformer 技术的推动
本文介绍了一个名为 ESPnet 的新的开源语音处理平台,主要关注端到端自动语音识别 (ASR),采用了广泛使用的动态神经网络工具包 Chainer 和 PyTorch 作为主要深度学习引擎,同时遵循 Kaldi ASR 工具包的风格来完成数据处理,特征提取 / 格式以及食谱以提供完整的语音识别和其他语音处理实验的设置,解释了软件平台的主要架构、几个重要功能和与主要 ASR 基准的实验结果。
Mar, 2018
本文比较 E-Branchformer 和 Conformer 两种编码器在语音处理方面的性能,并表明 E-Branchformer 在大多数评估数据集上表现比 Conformer 更好,并且在训练期间更加稳定。
May, 2023
本文提出了一种名为 Conformer 的语音识别(Automatic Speech Recognition)模型,结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点,在参数更少的情况下实现对于语音序列的局部和全局依赖的建模,并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%(未使用语言模型)和 1.9%/3.9%(使用外部语言模型)的字错率(Word Error Rate),表现超越了之前的基于 Transformer 和 CNN 的模型。
May, 2020
通过重新审视 Conformer 架构的设计选择,我们提出了 Squeezeformer 模型,展示其在同一训练方案下一致优于当前最先进的 ASR 模型,取得了 7.5%,6.5%和 6.0%的字错率(WER)结果,比具有相同数量的 FLOPs 的 Conformer-CTC 更好 3.1%,1.4%和 0.6%。
Jun, 2022
该论文介绍了一种名为 ESPnet-TTS 的新型端到端文本到语音工具包,支持最先进的 E2E-TTS 模型,提供基于 Kaldi ASR 工具包的食谱,且提供预先训练好的模型和样例,因此用户可以将其用作基线,实现了与 ASR 功能的集成,如基于 ASR 的目标评估和半监督学习。
Oct, 2019
我们提出了一种更快、更节省内存、性能更好的变压器模型 Zipformer,它通过在 U-Net 类似的编码器结构中进行中间堆栈的操作以较低的帧速率工作,重新组织块结构以提高效率,使用 BiasNorm 的修改形式来保留一些长度信息,新的激活函数 SwooshR 和 SwooshL 的表现优于 Swish,通过一个名为 ScaledAdam 的优化器进行更新尺度的调整,相对变化保持大致相同,并明确学习参数尺度,在 LibriSpeech、Aishell-1 和 WenetSpeech 数据集上进行了大量实验,证明了我们提出的 Zipformer 在与其他最先进的 ASR 模型相比的有效性。
Oct, 2023
本文提出了一种在资源受限设备上实现高级 Conformer 基于端到端流式 ASR 系统的模型架构调整、神经网络图形转换和数值优化的方法,实现了与实时识别相比超过 5.26 倍的速度(0.19 RTF),同时最小化能源消耗并达到最新的准确性,该方法可广泛应用于其他基于变压器的无服务器 AI 应用。此外,我们提供了一个完整的理论,用于利用任何浮点精度和任何 Lp 范数数值稳定层标准化的最佳前归一化方法。
Dec, 2023
本文提出一种基于混合 CTC / 注意力模型的 ResNet-18 和卷积扩充变压器 (Conformer),可以进行端到端的训练。在语音识别方面取得了具有突破性的进展,实现了最先进效果。
Feb, 2021
我们提出了 CONF-TSASR,这是一种非自回归的端到端时间 - 频率域架构,用于单通道目标人说话者自动语音识别(TS-ASR)。该模型包括基于 TitaNet 的说话者嵌入模块,基于 Conformer 的掩蔽和 ASR 模块,通过联合优化这些模块来转录目标说话者的语音,忽略其他讲话者的语音。通过使用连接主义时间分类(CTC)损失进行训练,并引入一种比例不变的频谱重建损失来鼓励模型更好地将目标说话者的频谱与混合音频分离。在 WSJ0-2mix-extr(4.2%)数据集上,我们获得了最先进的目标说话者词错误率(TS-WER)。此外,我们首次报告了 WSJ0-3mix-extr(12.4%),LibriSpeech2Mix(4.2%)和 LibriSpeech3Mix(7.6%)数据集上的 TS-WER,为 TS-ASR 建立了新的基准。所提出的模型将通过 NVIDIA NeMo 工具包开源。
Aug, 2023
本文介绍了一种名为 HyperConformer 的语音识别结构,它通过引入高效的 HyperMixer 机制,实现了对于长输入序列较为经济的全局交互建模,并在可获得的训练数据限制下达到与或高于传统结构 Conformer 相似的识别表现。
May, 2023