Whispy：将 STT Whisper 模型调整至实时环境

May, 2024

Whispy：将 STT Whisper 模型调整至实时环境

Whispy: Adapting STT Whisper Models to Real-Time Environments

Antonio Bevilacqua, Paolo Saviano, Alessandro Amirante, Simon Pietro Romano

TL;DRWhispy 是一个能够实时处理语音流并生成高质量语音转录的系统，优化了 Whisper 预训练模型的架构，具备较低的计算成本，实验结果展示了其在鲁棒性、及时性和准确性方面的优势。

Abstract

Large general-purpose transformer models have recently become the mainstay in the realm of speech analysis. In particular, whisper achieves state-of-the-art results in relevant tasks such as speech recognition, t

whisper whispy speech analysis real-time conditions voice transcriptions

发现论文，激发创造

将 Whisper 转化为实时转录系统

Whisper-Streaming 是基于 Whisper 的实时语音转录和翻译模型实现，使用本地协议和自适应延迟策略，能够在多语言会议的实时转录服务中展示高品质和 3.3 秒延迟。

Jul, 2023

多任务多语言语音模型的高效压缩

在这项研究中，我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题，并证明这是与讲话者特征及模型相关偏差有关。针对这个问题，我们提出了 DistilWhisper 方法，通过轻量级的模型微调和知识蒸馏策略，在保留了多任务和多语言预训练的鲁棒性的同时，有效地提升了目标语言的 ASR 性能。

May, 2024

DistilWhisper: 通过语言专家高效蒸馏多任务语音模型

DistilWhisper 是一个轻量级模块化的 ASR 框架，通过语言专家和知识蒸馏的方式提高了 Whisper 的性能，同时保留了多任务和多语言预训练模型的鲁棒性，在目标语言中提高了 ASR 性能而仅引入了可忽略的参数开销。

Nov, 2023

将 ASR 基础模型用于口语评估的适应

本文详细分析了 Whisper 输出，并提出了精细调整和软提示调整两种解决方案，实验证明我们可以有效地改变 Whisper 的解码行为，生成与口语回答中准确的单词。

Jul, 2023

使用合成字幕和迁移学习训练的音频字幕的 Whisper 变形器

本技术报告介绍了我们在音频字幕领域的研究，重点关注了预训练语音转文字的 Whisper 模型和合成字幕的预训练使用。我们探讨了我们的训练过程，并呈现了我们实验的结果，包括模型大小变化、数据集混合和其他超参数。我们的发现证明了不同训练策略对音频字幕模型性能的影响。我们的代码和训练模型在 GitHub 和 Hugging Face Hub 上公开可用。

May, 2023

传递性探究：Whisper 语音表示在 “野外” 跨任务下游应用中的适用性

本文通过探究 Whisper 模型在 ASR 和其他四个语音任务中的泛化性以及在嘈杂环境下的鲁棒性，证明了其表现出色并具有实际应用价值。

May, 2023

适应童声识别的 Whisper 模型

我们的研究旨在探索能否将已存在的多语种 ASR 模型，如 Whisper，适应于儿童语音以提高儿童 ASR 性能，并将 Whisper 适应于儿童语音的结果与基于自监督模型 wav2vec2 进行微调的结果进行比较，结果显示在儿童语音上对 Whisper 进行微调显著提高了 ASR 性能，而利用对儿童语音进行微调的 wav2vec2 模型甚至超过了 Whisper 的效果。

Jul, 2023

Simul-Whisper：带有截断检测的注意力引导流式 Whisper

Simul-Whisper is a streaming speech recognition model that utilizes time alignment embedded in Whisper's cross-attention for guiding auto-regressive decoding, achieving chunk-based ASR without fine-tuning, while proposing an integrate-and-fire-based truncation detection model to address the negative effect of truncated words at chunk boundaries, outperforming the current state-of-the-art baseline with a minimal absolute word error rate degradation.

Jun, 2024

利用开源工具和公开数据复现 Whisper-Style 训练

使用开源工具包与公开可用的数据，本文提出了一种 Open Whisper-style Speech Model (OWSM) 来训练语音模型，以解决以前无法公开访问的全流程模型开发所面临的性能提升、效率、鲁棒性、公正性和偏见等问题，并公开发布所有脚本、预训练模型和训练日志，以促进开放科学。

Sep, 2023

PI-Whisper：面向多样化和不断演化的说话人特征的自适应增量式语音识别框架

通过边缘自动语音识别（ASR）技术，本研究提出了 PI-Whisper 框架，以增强 ASR 的适应性、实现增量式处理和促进多元化使用者群体的公平性和公正性，并在状态 - of-the-art 的准确性下降为主的情况下，提高 13.7％的识别准确率。

Jun, 2024