Simul-Whisper：带有截断检测的注意力引导流式 Whisper

Jun, 2024

Simul-Whisper：带有截断检测的注意力引导流式 Whisper

Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection

Haoyu Wang, Guoqiang Hu, Guodong Lin, Wei-Qiang Zhang, Jian Li

TL;DRSimul-Whisper is a streaming speech recognition model that utilizes time alignment embedded in Whisper's cross-attention for guiding auto-regressive decoding, achieving chunk-based ASR without fine-tuning, while proposing an integrate-and-fire-based truncation detection model to address the negative effect of truncated words at chunk boundaries, outperforming the current state-of-the-art baseline with a minimal absolute word error rate degradation.

Abstract

As a robust and large-scale multilingual speech recognition model, whisper has demonstrated impressive results in many low-resource and out-of-distribution scenarios. However, its encoder-decoder structure hinder

multilingual speech recognition streaming speech recognition whisper simul-whisper chunk-based asr

发现论文，激发创造

多任务多语言语音模型的高效压缩

在这项研究中，我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题，并证明这是与讲话者特征及模型相关偏差有关。针对这个问题，我们提出了 DistilWhisper 方法，通过轻量级的模型微调和知识蒸馏策略，在保留了多任务和多语言预训练的鲁棒性的同时，有效地提升了目标语言的 ASR 性能。

May, 2024

将 Whisper 转化为实时转录系统

Whisper-Streaming 是基于 Whisper 的实时语音转录和翻译模型实现，使用本地协议和自适应延迟策略，能够在多语言会议的实时转录服务中展示高品质和 3.3 秒延迟。

Jul, 2023

DistilWhisper: 通过语言专家高效蒸馏多任务语音模型

DistilWhisper 是一个轻量级模块化的 ASR 框架，通过语言专家和知识蒸馏的方式提高了 Whisper 的性能，同时保留了多任务和多语言预训练模型的鲁棒性，在目标语言中提高了 ASR 性能而仅引入了可忽略的参数开销。

Nov, 2023

Whispy：将 STT Whisper 模型调整至实时环境

Whispy 是一个能够实时处理语音流并生成高质量语音转录的系统，优化了 Whisper 预训练模型的架构，具备较低的计算成本，实验结果展示了其在鲁棒性、及时性和准确性方面的优势。

May, 2024

Whisper 能否进行基于语音的上下文学习

通过以语音为基础的上下文学习方法，本研究调查了由 OpenAI 发布的 Whisper 自动语音识别（ASR）模型的上下文学习能力。在应用于孤立词 ASR 时，实验结果表明使用任意大小的 Whisper 模型在两种方言中能够显著减少词错误率（WER），平均降低率为 32.3%。可应用于进一步提高上下文学习效率的基于 k 最近邻的示例选择技术能将平均相对 WER 减少率提高至 36.4%。研究还对发音变化和方言特定的词汇细微差别的适应性进行了详细的定量分析。

Sep, 2023

将 ASR 基础模型用于口语评估的适应

本文详细分析了 Whisper 输出，并提出了精细调整和软提示调整两种解决方案，实验证明我们可以有效地改变 Whisper 的解码行为，生成与口语回答中准确的单词。

Jul, 2023

Whisper-MCE：用于混合语言更佳性能的 Whisper 模型微调

本文介绍了 Whisper-MCE 模型在 minor language 和 mixed language 语音识别方面的卓越表现，同时提出一种新的评估机制以解决在这些语境下对其有效性进行评估时的挑战。通过将我们的模型与基线模型 whisper-large-v2 进行比较，我们展示了其准确捕捉原始音频内容、实现更高的识别准确率和更快的识别速度的卓越能力。值得注意的是，在识别 mixed language 的特定任务中，我们的模型超越了其他现有模型。

Oct, 2023

通过提示调优扩展 Whisper 以实现面向目标说话者的 ASR

本研究提出了一种针对目标讲话者的自动语音识别 (ASR) 方法，利用参数高效微调的方法扩展了大规模单讲话者 ASR 模型 Whisper，实验结果显示，该方法可以在只需要任务特定模型参数约 1% 的情况下，达到与先进的完全微调方法相当的性能，同时保留了原始 Whisper 的特征，使生成的转录自然且信息丰富。

Dec, 2023

使用 Transformer 模型进行流式自动语音识别

通过使用自我注意力来模拟时间上下文信息，基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统，其可以在每个发音单词之后快速生成输出，因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模，同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上，我们的方案分别达到了 2.8% 和 7.2% 的词错误率，这是我们所知道的这个任务的最好的流式端到端 ASR 成果。

Jan, 2020

Distil-Whisper: 大规模伪标记下的鲁棒知识蒸馏

通过伪标注法，将较大的语音识别模型提炼为 Distil-Whisper 变体，使其在低延迟或资源有限的环境中更快速地执行，同时保持与原模型接近的性能。

Nov, 2023