TrimTail: 简单但有效的声谱长度惩罚实现低延迟流式自动语音识别
本研究提出一种名为 FastEmit 的序列级发射规则方法,该方法可在训练转导模型时直接对序列级概率进行延迟规则化,从而在不需要任何对齐的情况下更适合流式 ASR 的序列级优化,有效降低音频识别的延迟并提升精度。
Oct, 2020
提出一种惩罚转导模型符号延迟的简单方法,来平衡无外部对齐的在线模型特征提取和识别精度之间的权衡,该方法对流式 Conformer 模型和单向 LSTM 模型都可以有效降低符号延迟并且保持可以接受的性能下降。
Oct, 2022
本文提出了一种新的训练方法,通过明确建模和减少序列变换器模型的延迟来达到最优的延迟和准确性均衡,实验结果表明,所提出的最小延迟训练方法将有助于将哈尔滨工业大学卡苏耶延迟从 220ms 降低到 27ms,并在误识率降低了 0.7% 的同时,优于传统的对齐限制训练和快速发射方法。
Nov, 2022
本文提出了一种基于 Transformer 模型的低延迟流式语音识别方法,其中包含了一个侦察网络和一个识别网络,该方法在 Librispeech 的测试数据集上实现了最佳性能 (2.7/6.4 WER) 和短暂的 639ms 延迟。
Mar, 2020
本文提出了一种针对实时应用具有低延迟的 CPU 端到端文本转语音系统,使用自回归基于注意力机制的序列到序列声学模型和 LPCNet 声码器进行波形生成,实验结果显示,该系统能够在 CPU 上几乎达到 31 倍的实时最小延迟,并且能够生成几乎自然的高质量语音。
Nov, 2021
本文致力于开发一种精确的 LSTM,注意力 (Attention),和基于 CTC 的流式自动语音识别模型。这些模型针对印地英语 (Hinglish) 语音搜索应用,并分析了各种用于改进模型准确性的修改方法以及流媒体应用程序中的说话结束检测 (EOS) 的关键要求。该模型在 Flipkart 的语音搜索中获得了显着的性能提升,同时减少了搜索延迟。
May, 2023
本文提出一种帧级模型,采用高效增强记忆变压器块和动态延迟训练方法来提高流媒体自动语音识别的性能和降低计算复杂性,通过缓存机制并重复使用结合增强记忆库作为有限历史上下文的补充,以达到更好的性能。实验表明,该模型在 LibriSpeech 数据集上具有较高的性能。
Mar, 2022
该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式 Transformer-Transducer,并提出了一种联合令牌级串行输出训练方法以实现有效的 ASR 和 ST 内容生成,其平均 ASR 延迟为 1 秒,ST 延迟为 1.3 秒,在多语言情况下优化了输出质量表现。
Jul, 2023
Simul-Whisper is a streaming speech recognition model that utilizes time alignment embedded in Whisper's cross-attention for guiding auto-regressive decoding, achieving chunk-based ASR without fine-tuning, while proposing an integrate-and-fire-based truncation detection model to address the negative effect of truncated words at chunk boundaries, outperforming the current state-of-the-art baseline with a minimal absolute word error rate degradation.
Jun, 2024