利用结构化状态空间模型增强在线语音识别的构型
本研究采用基于 Conformer 的声学模型解决了自动语音识别中的鲁棒性问题,并在 CHiME-4 语料库的单声道 ASR 任务中经过测试,其使用 utterance-wise 归一化和说话人自适应的方式,相比经典的 wide residual 双向长短时记忆网络,减小了 18.3% 的模型大小,训练时间减少了 79.6%且相对误差率比 WRBN 低 8.4%。
Mar, 2022
本文提出了一种多维结构化状态空间(S4)方法来增强语音,将多维的 S4 层进行白化变换以更好地捕捉跨频率轴的频谱依赖性,探索了几种基于 S4 的 T 和 TF 深层结构,其中,在 TF 领域中,与基于卷积层的传统 U 型模型相比,所提出的 S4 模型尺寸缩小了 78.6%,但在数据增强的情况下仍然达到了竞争性结果,具有较好的 PESQ 分数。
Jun, 2023
使用 Spiking Structured State Space Model(Spiking-S4)可以高效地从长时间语音序列中提取干净的语音,该方法将 Spiking Neural Networks(SNN)的能效与 Structured State Space Models(S4)的长程序列建模能力相结合,具有较少的计算资源要求,与现有的人工神经网络(ANN)方法相媲美。
Sep, 2023
本文提出了一种名为 Conformer 的语音识别(Automatic Speech Recognition)模型,结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点,在参数更少的情况下实现对于语音序列的局部和全局依赖的建模,并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%(未使用语言模型)和 1.9%/3.9%(使用外部语言模型)的字错率(Word Error Rate),表现超越了之前的基于 Transformer 和 CNN 的模型。
May, 2020
我们提出了在 conformer 的编码器和解码器之间添加一个可完全微分的记忆增强神经网络,用于自动语音识别。这个外部记忆可以增强长发声段的泛化性能,因为它允许系统循环地存储和检索更多信息。实验结果表明,我们提出的 Conformer-NTM 模型在长发声段上优于没有记忆的基准 conformer 模型。
Sep, 2023
本文提出了一种能够学习到跨话语上下文特征的紧凑的低维度的特征表示方法,并通过在先前话语的历史向量上应用特殊设计的注意力池化层,来优化了基于 Conformer-Transducer 编码器的 ASR 系统,在 1000 小时的 Gigaspeech 语音语料上进行了实验,结果表明相对于仅使用话语内部语境的基线模型,该系统达到了 0.7% 至 0.5% 的绝对词错误率的统计显着降低(相对降低了 4.3% 至 3.1%) 的效果。
Jun, 2023
我们提出了一种基于转录者的新型神经网络架构,通过增加上下文信息流来提高自动语音识别系统的准确性,特别是对于不常见的词语识别准确性的改进。我们研究了使用该新模型和 / 或与上下文语言模型浅层融合时不常见词的准确性改进,并发现两者的组合在不常见词识别准确性上具有累计增益。
Feb, 2024
通过引入跨模态对话表示,结合预训练的语音和文本模型,扩展 Conformer 编码器 - 解码器模型,我们的方法能够提取更丰富的历史语音上下文,实现较标准 Conformer 模型相对准确度提升 8.8%(HKUST)和 23%(MagicData-RAMC)的结果。
Oct, 2023
本文提出了一种在资源受限设备上实现高级 Conformer 基于端到端流式 ASR 系统的模型架构调整、神经网络图形转换和数值优化的方法,实现了与实时识别相比超过 5.26 倍的速度(0.19 RTF),同时最小化能源消耗并达到最新的准确性,该方法可广泛应用于其他基于变压器的无服务器 AI 应用。此外,我们提供了一个完整的理论,用于利用任何浮点精度和任何 Lp 范数数值稳定层标准化的最佳前归一化方法。
Dec, 2023
本研究通过引入多头注意力机制、使用字片段模型、同步训练、计划采样、标签平滑和最小字符错误率优化等技术手段,将 Listen Attend Spell(LAS)模型应用于语音搜索任务中,从而将错误率从 9.2% 显著降至 5.6%。在听写任务中,该模型的错误率为 4.1%,略优于传统系统的 5.0%。
Dec, 2017