利用开源工具和公开数据复现 Whisper-Style 训练

Sep, 2023

利用开源工具和公开数据复现 Whisper-Style 训练

Reproducing Whisper-Style Training Using an Open-Source Toolkit and Publicly Available Data

Yifan Peng, Jinchuan Tian, Brian Yan, Dan Berrebbi, Xuankai Chang...

TL;DR使用开源工具包与公开可用的数据，本文提出了一种 Open Whisper-style Speech Model (OWSM) 来训练语音模型，以解决以前无法公开访问的全流程模型开发所面临的性能提升、效率、鲁棒性、公正性和偏见等问题，并公开发布所有脚本、预训练模型和训练日志，以促进开放科学。

Abstract

pre-training speech models on large volumes of data has achieved remarkable success. openai whisper is a multilingual multitask model trai

pre-training speech models openai whisper multilingual multitask model training-related issues open-source toolkit

发现论文，激发创造

OWSM v3.1：基于 E-Branchformer 的更好更快的开放式耳语口语模型

利用 E-Branchformer 提高 OWSM v3.1 模型的性能和效率，尤其在推理速度上具有 25% 的提升，并推出具有 1B 规模的最大 E-Branchformer 语音模型。

Jan, 2024

关于异质数据源对语音转文字基础模型的影响

通过分析数据集，我们引入了 OWSM v3.2，采用两种关键策略（代理任务筛选数据和使用大型开放语言模型进行标点符号和大小写处理），从而提高了 Open Whisper-style Speech Model v3.1 基线的性能，并减少了 15% 的训练数据。

Jun, 2024

多任务多语言语音模型的高效压缩

在这项研究中，我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题，并证明这是与讲话者特征及模型相关偏差有关。针对这个问题，我们提出了 DistilWhisper 方法，通过轻量级的模型微调和知识蒸馏策略，在保留了多任务和多语言预训练的鲁棒性的同时，有效地提升了目标语言的 ASR 性能。

May, 2024

基于公共语音识别语料训练的仅解码器模型的极限探索

本文研究了使用公共英语 ASR 语料库训练仅解码器模型（DOTA）相比于基于编码器 - 解码器的开源复制模型（OWSM）和 Whisper 的大型语言模型（Whisper large-v3），在几乎所有英语 ASR 基准测试集上取得更好的性能，并在 15 个测试集中的 7 个上超过了 Whisper。我们在宽松许可下发布了我们的代码库和模型检查点。

Jan, 2024

DistilWhisper: 通过语言专家高效蒸馏多任务语音模型

DistilWhisper 是一个轻量级模块化的 ASR 框架，通过语言专家和知识蒸馏的方式提高了 Whisper 的性能，同时保留了多任务和多语言预训练模型的鲁棒性，在目标语言中提高了 ASR 性能而仅引入了可忽略的参数开销。

Nov, 2023

传递性探究：Whisper 语音表示在 “野外” 跨任务下游应用中的适用性

本文通过探究 Whisper 模型在 ASR 和其他四个语音任务中的泛化性以及在嘈杂环境下的鲁棒性，证明了其表现出色并具有实际应用价值。

May, 2023

Whispy：将 STT Whisper 模型调整至实时环境

Whispy 是一个能够实时处理语音流并生成高质量语音转录的系统，优化了 Whisper 预训练模型的架构，具备较低的计算成本，实验结果展示了其在鲁棒性、及时性和准确性方面的优势。

May, 2024

将 Whisper 转化为实时转录系统

Whisper-Streaming 是基于 Whisper 的实时语音转录和翻译模型实现，使用本地协议和自适应延迟策略，能够在多语言会议的实时转录服务中展示高品质和 3.3 秒延迟。

Jul, 2023

使用合成字幕和迁移学习训练的音频字幕的 Whisper 变形器

本技术报告介绍了我们在音频字幕领域的研究，重点关注了预训练语音转文字的 Whisper 模型和合成字幕的预训练使用。我们探讨了我们的训练过程，并呈现了我们实验的结果，包括模型大小变化、数据集混合和其他超参数。我们的发现证明了不同训练策略对音频字幕模型性能的影响。我们的代码和训练模型在 GitHub 和 Hugging Face Hub 上公开可用。

May, 2023

Distil-Whisper: 大规模伪标记下的鲁棒知识蒸馏

通过伪标注法，将较大的语音识别模型提炼为 Distil-Whisper 变体，使其在低延迟或资源有限的环境中更快速地执行，同时保持与原模型接近的性能。

Nov, 2023