将 Whisper 转化为实时转录系统

Jul, 2023

Turning Whisper into Real-Time Transcription System

Dominik Macháček, Raj Dabre, Ondřej Bojar

TL;DRWhisper-Streaming 是基于 Whisper 的实时语音转录和翻译模型实现，使用本地协议和自适应延迟策略，能够在多语言会议的实时转录服务中展示高品质和 3.3 秒延迟。

Abstract

whisper is one of the recent state-of-the-art multilingual speech recognition and translation models, however, it is not designed for real

whisper multilingual speech recognition real-time transcription whisper-streaming translation

发现论文，激发创造

Whispy：将 STT Whisper 模型调整至实时环境

Whispy 是一个能够实时处理语音流并生成高质量语音转录的系统，优化了 Whisper 预训练模型的架构，具备较低的计算成本，实验结果展示了其在鲁棒性、及时性和准确性方面的优势。

May, 2024

Simul-Whisper：带有截断检测的注意力引导流式 Whisper

Simul-Whisper is a streaming speech recognition model that utilizes time alignment embedded in Whisper's cross-attention for guiding auto-regressive decoding, achieving chunk-based ASR without fine-tuning, while proposing an integrate-and-fire-based truncation detection model to address the negative effect of truncated words at chunk boundaries, outperforming the current state-of-the-art baseline with a minimal absolute word error rate degradation.

Jun, 2024

多任务多语言语音模型的高效压缩

在这项研究中，我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题，并证明这是与讲话者特征及模型相关偏差有关。针对这个问题，我们提出了 DistilWhisper 方法，通过轻量级的模型微调和知识蒸馏策略，在保留了多任务和多语言预训练的鲁棒性的同时，有效地提升了目标语言的 ASR 性能。

May, 2024

DistilWhisper: 通过语言专家高效蒸馏多任务语音模型

DistilWhisper 是一个轻量级模块化的 ASR 框架，通过语言专家和知识蒸馏的方式提高了 Whisper 的性能，同时保留了多任务和多语言预训练模型的鲁棒性，在目标语言中提高了 ASR 性能而仅引入了可忽略的参数开销。

Nov, 2023

将 ASR 基础模型用于口语评估的适应

本文详细分析了 Whisper 输出，并提出了精细调整和软提示调整两种解决方案，实验证明我们可以有效地改变 Whisper 的解码行为，生成与口语回答中准确的单词。

Jul, 2023

利用开源工具和公开数据复现 Whisper-Style 训练

使用开源工具包与公开可用的数据，本文提出了一种 Open Whisper-style Speech Model (OWSM) 来训练语音模型，以解决以前无法公开访问的全流程模型开发所面临的性能提升、效率、鲁棒性、公正性和偏见等问题，并公开发布所有脚本、预训练模型和训练日志，以促进开放科学。

Sep, 2023

通过提示调优扩展 Whisper 以实现面向目标说话者的 ASR

本研究提出了一种针对目标讲话者的自动语音识别 (ASR) 方法，利用参数高效微调的方法扩展了大规模单讲话者 ASR 模型 Whisper，实验结果显示，该方法可以在只需要任务特定模型参数约 1% 的情况下，达到与先进的完全微调方法相当的性能，同时保留了原始 Whisper 的特征，使生成的转录自然且信息丰富。

Dec, 2023

使用 Whisper 进行教育视频转录：使用人工智能进行教育视频转录的初步研究

使用视频作为电子学习的工具时，自动生成的转录文本对于提升学习体验至关重要。本文通过 25 个教育视频量化了由 Whisper 生成的转录文本，并且针对利用自动语音识别技术进行教育视频转录的研究提出了一些开放性问题。

Jul, 2023

Whisper-MCE：用于混合语言更佳性能的 Whisper 模型微调

本文介绍了 Whisper-MCE 模型在 minor language 和 mixed language 语音识别方面的卓越表现，同时提出一种新的评估机制以解决在这些语境下对其有效性进行评估时的挑战。通过将我们的模型与基线模型 whisper-large-v2 进行比较，我们展示了其准确捕捉原始音频内容、实现更高的识别准确率和更快的识别速度的卓越能力。值得注意的是，在识别 mixed language 的特定任务中，我们的模型超越了其他现有模型。

Oct, 2023

适应童声识别的 Whisper 模型

我们的研究旨在探索能否将已存在的多语种 ASR 模型，如 Whisper，适应于儿童语音以提高儿童 ASR 性能，并将 Whisper 适应于儿童语音的结果与基于自监督模型 wav2vec2 进行微调的结果进行比较，结果显示在儿童语音上对 Whisper 进行微调显著提高了 ASR 性能，而利用对儿童语音进行微调的 wav2vec2 模型甚至超过了 Whisper 的效果。

Jul, 2023