Whispy:将 STT Whisper 模型调整至实时环境
Whisper-Streaming 是基于 Whisper 的实时语音转录和翻译模型实现,使用本地协议和自适应延迟策略,能够在多语言会议的实时转录服务中展示高品质和 3.3 秒延迟。
Jul, 2023
在这项研究中,我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题,并证明这是与讲话者特征及模型相关偏差有关。针对这个问题,我们提出了 DistilWhisper 方法,通过轻量级的模型微调和知识蒸馏策略,在保留了多任务和多语言预训练的鲁棒性的同时,有效地提升了目标语言的 ASR 性能。
May, 2024
DistilWhisper 是一个轻量级模块化的 ASR 框架,通过语言专家和知识蒸馏的方式提高了 Whisper 的性能,同时保留了多任务和多语言预训练模型的鲁棒性,在目标语言中提高了 ASR 性能而仅引入了可忽略的参数开销。
Nov, 2023
本文详细分析了 Whisper 输出,并提出了精细调整和软提示调整两种解决方案,实验证明我们可以有效地改变 Whisper 的解码行为,生成与口语回答中准确的单词。
Jul, 2023
本技术报告介绍了我们在音频字幕领域的研究,重点关注了预训练语音转文字的 Whisper 模型和合成字幕的预训练使用。我们探讨了我们的训练过程,并呈现了我们实验的结果,包括模型大小变化、数据集混合和其他超参数。我们的发现证明了不同训练策略对音频字幕模型性能的影响。我们的代码和训练模型在 GitHub 和 Hugging Face Hub 上公开可用。
May, 2023
本文通过探究 Whisper 模型在 ASR 和其他四个语音任务中的泛化性以及在嘈杂环境下的鲁棒性,证明了其表现出色并具有实际应用价值。
May, 2023
我们的研究旨在探索能否将已存在的多语种 ASR 模型,如 Whisper,适应于儿童语音以提高儿童 ASR 性能,并将 Whisper 适应于儿童语音的结果与基于自监督模型 wav2vec2 进行微调的结果进行比较,结果显示在儿童语音上对 Whisper 进行微调显著提高了 ASR 性能,而利用对儿童语音进行微调的 wav2vec2 模型甚至超过了 Whisper 的效果。
Jul, 2023
Simul-Whisper is a streaming speech recognition model that utilizes time alignment embedded in Whisper's cross-attention for guiding auto-regressive decoding, achieving chunk-based ASR without fine-tuning, while proposing an integrate-and-fire-based truncation detection model to address the negative effect of truncated words at chunk boundaries, outperforming the current state-of-the-art baseline with a minimal absolute word error rate degradation.
Jun, 2024
使用开源工具包与公开可用的数据,本文提出了一种 Open Whisper-style Speech Model (OWSM) 来训练语音模型,以解决以前无法公开访问的全流程模型开发所面临的性能提升、效率、鲁棒性、公正性和偏见等问题,并公开发布所有脚本、预训练模型和训练日志,以促进开放科学。
Sep, 2023
通过边缘自动语音识别 (ASR)技术,本研究提出了 PI-Whisper 框架,以增强 ASR 的适应性、实现增量式处理和促进多元化使用者群体的公平性和公正性,并在状态 - of-the-art 的准确性下降为主的情况下,提高 13.7%的识别准确率。
Jun, 2024