将 Whisper 转化为实时转录系统
Whispy 是一个能够实时处理语音流并生成高质量语音转录的系统,优化了 Whisper 预训练模型的架构,具备较低的计算成本,实验结果展示了其在鲁棒性、及时性和准确性方面的优势。
May, 2024
Simul-Whisper is a streaming speech recognition model that utilizes time alignment embedded in Whisper's cross-attention for guiding auto-regressive decoding, achieving chunk-based ASR without fine-tuning, while proposing an integrate-and-fire-based truncation detection model to address the negative effect of truncated words at chunk boundaries, outperforming the current state-of-the-art baseline with a minimal absolute word error rate degradation.
Jun, 2024
在这项研究中,我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题,并证明这是与讲话者特征及模型相关偏差有关。针对这个问题,我们提出了 DistilWhisper 方法,通过轻量级的模型微调和知识蒸馏策略,在保留了多任务和多语言预训练的鲁棒性的同时,有效地提升了目标语言的 ASR 性能。
May, 2024
DistilWhisper 是一个轻量级模块化的 ASR 框架,通过语言专家和知识蒸馏的方式提高了 Whisper 的性能,同时保留了多任务和多语言预训练模型的鲁棒性,在目标语言中提高了 ASR 性能而仅引入了可忽略的参数开销。
Nov, 2023
本文详细分析了 Whisper 输出,并提出了精细调整和软提示调整两种解决方案,实验证明我们可以有效地改变 Whisper 的解码行为,生成与口语回答中准确的单词。
Jul, 2023
使用开源工具包与公开可用的数据,本文提出了一种 Open Whisper-style Speech Model (OWSM) 来训练语音模型,以解决以前无法公开访问的全流程模型开发所面临的性能提升、效率、鲁棒性、公正性和偏见等问题,并公开发布所有脚本、预训练模型和训练日志,以促进开放科学。
Sep, 2023
本研究提出了一种针对目标讲话者的自动语音识别 (ASR) 方法,利用参数高效微调的方法扩展了大规模单讲话者 ASR 模型 Whisper,实验结果显示,该方法可以在只需要任务特定模型参数约 1% 的情况下,达到与先进的完全微调方法相当的性能,同时保留了原始 Whisper 的特征,使生成的转录自然且信息丰富。
Dec, 2023
使用视频作为电子学习的工具时,自动生成的转录文本对于提升学习体验至关重要。本文通过 25 个教育视频量化了由 Whisper 生成的转录文本,并且针对利用自动语音识别技术进行教育视频转录的研究提出了一些开放性问题。
Jul, 2023
本文介绍了 Whisper-MCE 模型在 minor language 和 mixed language 语音识别方面的卓越表现,同时提出一种新的评估机制以解决在这些语境下对其有效性进行评估时的挑战。通过将我们的模型与基线模型 whisper-large-v2 进行比较,我们展示了其准确捕捉原始音频内容、实现更高的识别准确率和更快的识别速度的卓越能力。值得注意的是,在识别 mixed language 的特定任务中,我们的模型超越了其他现有模型。
Oct, 2023
我们的研究旨在探索能否将已存在的多语种 ASR 模型,如 Whisper,适应于儿童语音以提高儿童 ASR 性能,并将 Whisper 适应于儿童语音的结果与基于自监督模型 wav2vec2 进行微调的结果进行比较,结果显示在儿童语音上对 Whisper 进行微调显著提高了 ASR 性能,而利用对儿童语音进行微调的 wav2vec2 模型甚至超过了 Whisper 的效果。
Jul, 2023