TrimTail: 简单但有效的声谱长度惩罚实现低延迟流式自动语音识别

Nov, 2022

TrimTail: 简单但有效的声谱长度惩罚实现低延迟流式自动语音识别

TrimTail: Low-Latency Streaming ASR with Simple but Effective Spectrogram-Level Length Penalty

Xingchen Song, Di Wu, Zhiyong Wu, Binbin Zhang, Yuekai Zhang...

TL;DR本文提出了 TrimTail 方法，一种简单而有效的发射规则化方法，用于改善流式 ASR 模型的延迟。该方法可以在输入话语的频谱上直接应用长度惩罚以降低延迟，并可与各种模型结构和训练模式有效地结合使用。在几个数据集上进行测试表明，使用 TrimTail 方法可以显著地降低延迟并提高准确性。

Abstract

In this paper, we present trimtail, a simple but effective emission regularization method to improve the latency of streaming asr models. The core idea of →

trimtail emission regularization streaming asr latency reduction user sensitive delay

发现论文，激发创造

FastEmit: 序列级发射正则化的低延迟流式自动语音识别

本研究提出一种名为 FastEmit 的序列级发射规则方法，该方法可在训练转导模型时直接对序列级概率进行延迟规则化，从而在不需要任何对齐的情况下更适合流式 ASR 的序列级优化，有效降低音频识别的延迟并提升精度。

Oct, 2020

低延迟流式 ASR 的延迟惩罚转录器

提出一种惩罚转导模型符号延迟的简单方法，来平衡无外部对齐的在线模型特征提取和识别精度之间的权衡，该方法对流式 Conformer 模型和单向 LSTM 模型都可以有效降低符号延迟并且保持可以接受的性能下降。

Oct, 2022

流式端到端语音识别序列转导器的最小延迟训练

本文提出了一种新的训练方法，通过明确建模和减少序列变换器模型的延迟来达到最优的延迟和准确性均衡，实验结果表明，所提出的最小延迟训练方法将有助于将哈尔滨工业大学卡苏耶延迟从 220ms 降低到 27ms，并在误识率降低了 0.7% 的同时，优于传统的对齐限制训练和快速发射方法。

Nov, 2022

使用 Scout 网络的低延迟端对端流式语音识别

本文提出了一种基于 Transformer 模型的低延迟流式语音识别方法，其中包含了一个侦察网络和一个识别网络，该方法在 Librispeech 的测试数据集上实现了最佳性能 (2.7/6.4 WER) 和短暂的 639ms 延迟。

Mar, 2020

高质量流媒体语音合成低，句子长度无关的延迟

本文提出了一种针对实时应用具有低延迟的 CPU 端到端文本转语音系统，使用自回归基于注意力机制的序列到序列声学模型和 LPCNet 声码器进行波形生成，实验结果显示，该系统能够在 CPU 上几乎达到 31 倍的实时最小延迟，并且能够生成几乎自然的高质量语音。

Nov, 2021

为实时语音搜索构建准确低延迟 ASR

本文致力于开发一种精确的 LSTM，注意力 (Attention)，和基于 CTC 的流式自动语音识别模型。这些模型针对印地英语 (Hinglish) 语音搜索应用，并分析了各种用于改进模型准确性的修改方法以及流媒体应用程序中的说话结束检测 (EOS) 的关键要求。该模型在 Flipkart 的语音搜索中获得了显着的性能提升，同时减少了搜索延迟。

May, 2023

高速准确流式端到端自动语音识别

本文提出了使用延迟惩罚技巧和最小词错误率训练技术来减少端到端模型延迟以提高其质量的方法，并在语音识别方面展示出重要改进。

Apr, 2020

使用 EMFORMER 的 CTC 流式自动语音识别的动态延迟

本文提出一种帧级模型，采用高效增强记忆变压器块和动态延迟训练方法来提高流媒体自动语音识别的性能和降低计算复杂性，通过缓存机制并重复使用结合增强记忆库作为有限历史上下文的补充，以达到更好的性能。实验表明，该模型在 LibriSpeech 数据集上具有较高的性能。

Mar, 2022

利用文本对齐进行联合流式自动语音识别和语音翻译的分词级被序列化输出训练

该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式 Transformer-Transducer，并提出了一种联合令牌级串行输出训练方法以实现有效的 ASR 和 ST 内容生成，其平均 ASR 延迟为 1 秒，ST 延迟为 1.3 秒，在多语言情况下优化了输出质量表现。

Jul, 2023

Simul-Whisper：带有截断检测的注意力引导流式 Whisper

Simul-Whisper is a streaming speech recognition model that utilizes time alignment embedded in Whisper's cross-attention for guiding auto-regressive decoding, achieving chunk-based ASR without fine-tuning, while proposing an integrate-and-fire-based truncation detection model to address the negative effect of truncated words at chunk boundaries, outperforming the current state-of-the-art baseline with a minimal absolute word error rate degradation.

Jun, 2024