ESPnet 工具包的最新进展: Conformer 技术的推动

Oct, 2020

ESPnet 工具包的最新进展: Conformer 技术的推动

Recent Developments on ESPnet Toolkit Boosted by Conformer

Pengcheng Guo, Florian Boyer, Xuankai Chang, Tomoki Hayashi, Yosuke Higuchi...

TL;DR本文介绍了 ESPnet 工具包中的最新成果，包括基于 Conformer 的新型架构的应用于自动语音识别、语音翻译、语音分离和文本转语音等各种任务的实验结果，具备高性能且与现有的 Transformer 模型相竞争性或超越其成果；同时我们通过公开的语料库和预训练模型减轻了之前模型搭建过程中的资源负担。

Abstract

In this study, we present recent developments on espnet: End-to-End Speech Processing toolkit, which mainly involves a recently proposed architecture called conformer, Convolution-augmented →

espnet conformer end-to-end speech processing automatic speech recognition transformer

发现论文，激发创造

ESPnet: 端到端语音处理工具包

本文介绍了一个名为 ESPnet 的新的开源语音处理平台，主要关注端到端自动语音识别 (ASR)，采用了广泛使用的动态神经网络工具包 Chainer 和 PyTorch 作为主要深度学习引擎，同时遵循 Kaldi ASR 工具包的风格来完成数据处理，特征提取 / 格式以及食谱以提供完整的语音识别和其他语音处理实验的设置，解释了软件平台的主要架构、几个重要功能和与主要 ASR 基准的实验结果。

Mar, 2018

电子分支形变器与传统形变器在语音识别、翻译和理解任务中的对比研究

本文比较 E-Branchformer 和 Conformer 两种编码器在语音处理方面的性能，并表明 E-Branchformer 在大多数评估数据集上表现比 Conformer 更好，并且在训练期间更加稳定。

May, 2023

Conformer: 卷积增强变压器（Convolution-augmented Transformer）用于语音识别

本文提出了一种名为 Conformer 的语音识别（Automatic Speech Recognition）模型，结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点，在参数更少的情况下实现对于语音序列的局部和全局依赖的建模，并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%（未使用语言模型）和 1.9%/3.9%（使用外部语言模型）的字错率（Word Error Rate），表现超越了之前的基于 Transformer 和 CNN 的模型。

May, 2020

Squeezeformer：自动语音识别的高效 Transformer

通过重新审视 Conformer 架构的设计选择，我们提出了 Squeezeformer 模型，展示其在同一训练方案下一致优于当前最先进的 ASR 模型，取得了 7.5％，6.5％和 6.0％的字错率（WER）结果，比具有相同数量的 FLOPs 的 Conformer-CTC 更好 3.1％，1.4％和 0.6％。

Jun, 2022

ESPnet-TTS: 统一、可重现、可集成的开源端到端语音合成工具包

该论文介绍了一种名为 ESPnet-TTS 的新型端到端文本到语音工具包，支持最先进的 E2E-TTS 模型，提供基于 Kaldi ASR 工具包的食谱，且提供预先训练好的模型和样例，因此用户可以将其用作基线，实现了与 ASR 功能的集成，如基于 ASR 的目标评估和半监督学习。

Oct, 2019

Zipformer：一种更快、更好的自动语音识别编码器

我们提出了一种更快、更节省内存、性能更好的变压器模型 Zipformer，它通过在 U-Net 类似的编码器结构中进行中间堆栈的操作以较低的帧速率工作，重新组织块结构以提高效率，使用 BiasNorm 的修改形式来保留一些长度信息，新的激活函数 SwooshR 和 SwooshL 的表现优于 Swish，通过一个名为 ScaledAdam 的优化器进行更新尺度的调整，相对变化保持大致相同，并明确学习参数尺度，在 LibriSpeech、Aishell-1 和 WenetSpeech 数据集上进行了大量实验，证明了我们提出的 Zipformer 在与其他最先进的 ASR 模型相比的有效性。

Oct, 2023

基于 Conformer 的极端边缘计算设备上的语音识别

本文提出了一种在资源受限设备上实现高级 Conformer 基于端到端流式 ASR 系统的模型架构调整、神经网络图形转换和数值优化的方法，实现了与实时识别相比超过 5.26 倍的速度（0.19 RTF），同时最小化能源消耗并达到最新的准确性，该方法可广泛应用于其他基于变压器的无服务器 AI 应用。此外，我们提供了一个完整的理论，用于利用任何浮点精度和任何 Lp 范数数值稳定层标准化的最佳前归一化方法。

Dec, 2023

使用 Conformers 的端到端音视频语音识别

本文提出一种基于混合 CTC / 注意力模型的 ResNet-18 和卷积扩充变压器 (Conformer)，可以进行端到端的训练。在语音识别方面取得了具有突破性的进展，实现了最先进效果。

Feb, 2021

基于 Conformer 的单声道音频目标说话人自动语音识别

我们提出了 CONF-TSASR，这是一种非自回归的端到端时间 - 频率域架构，用于单通道目标人说话者自动语音识别（TS-ASR）。该模型包括基于 TitaNet 的说话者嵌入模块，基于 Conformer 的掩蔽和 ASR 模块，通过联合优化这些模块来转录目标说话者的语音，忽略其他讲话者的语音。通过使用连接主义时间分类（CTC）损失进行训练，并引入一种比例不变的频谱重建损失来鼓励模型更好地将目标说话者的频谱与混合音频分离。在 WSJ0-2mix-extr（4.2％）数据集上，我们获得了最先进的目标说话者词错误率（TS-WER）。此外，我们首次报告了 WSJ0-3mix-extr（12.4％），LibriSpeech2Mix（4.2％）和 LibriSpeech3Mix（7.6％）数据集上的 TS-WER，为 TS-ASR 建立了新的基准。所提出的模型将通过 NVIDIA NeMo 工具包开源。

Aug, 2023

HyperConformer：用于高效语音识别的多头超级混合器

本文介绍了一种名为 HyperConformer 的语音识别结构，它通过引入高效的 HyperMixer 机制，实现了对于长输入序列较为经济的全局交互建模，并在可获得的训练数据限制下达到与或高于传统结构 Conformer 相似的识别表现。

May, 2023