HyperConformer:用于高效语音识别的多头超级混合器
本文介绍了如何通过引入逐渐下采样的机制和新颖的分组注意力机制将 Conformer 架构的复杂性降至与有限计算预算相适应的情况。在 LibriSpeech 数据集上进行的实验说明,该架构相比于 Conformer 速度更快,性能更好,且包含更少的参数。
Aug, 2021
通过重新审视 Conformer 架构的设计选择,我们提出了 Squeezeformer 模型,展示其在同一训练方案下一致优于当前最先进的 ASR 模型,取得了 7.5%,6.5%和 6.0%的字错率(WER)结果,比具有相同数量的 FLOPs 的 Conformer-CTC 更好 3.1%,1.4%和 0.6%。
Jun, 2022
本文提出了一种名为 Conformer 的语音识别(Automatic Speech Recognition)模型,结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点,在参数更少的情况下实现对于语音序列的局部和全局依赖的建模,并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%(未使用语言模型)和 1.9%/3.9%(使用外部语言模型)的字错率(Word Error Rate),表现超越了之前的基于 Transformer 和 CNN 的模型。
May, 2020
本文章提出一种基于自注意力机制和 MLP 模块的可定制语音转录模型 Branchformer,其可以同时提取全局和局部依赖关系,并且在多项基准测试上均胜过了 Transformer 和 cgMLP,与 Conformer 的表现相当。此外,该模型具有双分支结构,可以降低计算复杂度。
Jul, 2022
本研究采用基于 Conformer 的声学模型解决了自动语音识别中的鲁棒性问题,并在 CHiME-4 语料库的单声道 ASR 任务中经过测试,其使用 utterance-wise 归一化和说话人自适应的方式,相比经典的 wide residual 双向长短时记忆网络,减小了 18.3% 的模型大小,训练时间减少了 79.6%且相对误差率比 WRBN 低 8.4%。
Mar, 2022
我们提出了一种更快、更节省内存、性能更好的变压器模型 Zipformer,它通过在 U-Net 类似的编码器结构中进行中间堆栈的操作以较低的帧速率工作,重新组织块结构以提高效率,使用 BiasNorm 的修改形式来保留一些长度信息,新的激活函数 SwooshR 和 SwooshL 的表现优于 Swish,通过一个名为 ScaledAdam 的优化器进行更新尺度的调整,相对变化保持大致相同,并明确学习参数尺度,在 LibriSpeech、Aishell-1 和 WenetSpeech 数据集上进行了大量实验,证明了我们提出的 Zipformer 在与其他最先进的 ASR 模型相比的有效性。
Oct, 2023
本文提出了一种优化的 conformer 模型,通过替换低层 conformer 块、策略性缩小架构和利用 RNNAttention-Performer 等方式,优化内部状态数量,降低推理延迟。通过级联编码器,我们发现这些优化可以将延迟降低 6.8 倍,并保持合适的精度,可以作为独立的编码器或高性能 ASR 流水线的第一部分。
Mar, 2023
我们提出了在 conformer 的编码器和解码器之间添加一个可完全微分的记忆增强神经网络,用于自动语音识别。这个外部记忆可以增强长发声段的泛化性能,因为它允许系统循环地存储和检索更多信息。实验结果表明,我们提出的 Conformer-NTM 模型在长发声段上优于没有记忆的基准 conformer 模型。
Sep, 2023
本文研究使用 Transformer 和 Conformer 代替递归神经网络在语音分离领域中来提取单个说话者的混合语音,以连续语音分离为主要研究方向,通过在 LibriCSS 数据集上的实验,证明所提模型在语音分离任务中具有最优表现。
Aug, 2020