Mi-Go：使用 YouTube 作为数据源评估类似 OpenAI Whisper 的语音识别模型的测试框架

Sep, 2023

Mi-Go：使用 YouTube 作为数据源评估类似 OpenAI Whisper 的语音识别模型的测试框架

Mi-Go: Test Framework which uses YouTube as Data Source for Evaluating Speech Recognition Models like OpenAI's Whisper

Tomasz Wojnar, Jaroslaw Hryszko, Adam Roman

TL;DR介绍了一种名为 Mi-Go 的新型测试框架，旨在对通用语音识别机器学习模型在多样真实场景中的性能和适应性进行评估。该框架利用 YouTube 作为丰富且持续更新的数据来源，考虑多种语言、口音、方言、讲话风格和音频质量水平。通过对 OpenAI 开发的 Whisper 模型进行测试，采用了共计 124 个 YouTube 视频进行测试，结果突显了 YouTube 作为语音识别模型宝贵的测试平台的实用性，确保其对多种语言和声学条件的稳健性、准确性和适应性。此外，通过对比机器生成的转录与人工制作的字幕，Mi-Go 框架可帮助发现 YouTube 字幕的潜在滥用，如搜索引擎优化。

Abstract

This article introduces mi-go, a novel testing framework aimed at evaluating the performance and adaptability of general-purpose speech recognition machine learning models across diverse real-world scenarios. The

mi-go speech recognition machine learning models youtube whisper model

发现论文，激发创造

利用开源工具和公开数据复现 Whisper-Style 训练

使用开源工具包与公开可用的数据，本文提出了一种 Open Whisper-style Speech Model (OWSM) 来训练语音模型，以解决以前无法公开访问的全流程模型开发所面临的性能提升、效率、鲁棒性、公正性和偏见等问题，并公开发布所有脚本、预训练模型和训练日志，以促进开放科学。

Sep, 2023

用低语启迪我：使用语音嵌入增强大型语言模型对口述剧本的分析

通过音频 - 语言知识蒸馏框架，将语音数据中的声学和语用信息转移到学生语言模型，从而改进了传统语言模型在分析口述文本任务上的性能。

Nov, 2023

大规模弱监督进行稳健语音识别

研究了训练简单的语音处理系统预测互联网音频大量转录的能力，在 680,000 小时的多语言和多任务监督的基础上，生成的模型具有很好的泛化能力，并且通常与之前的完全监督结果竞争，但在零次传输设置下不需要进行任何微调，与人类相比，模型的准确性和稳健性接近，并且同时发布了模型和推理代码，作为进一步稳健语音处理工作的基础。

Dec, 2022

Whispy：将 STT Whisper 模型调整至实时环境

Whispy 是一个能够实时处理语音流并生成高质量语音转录的系统，优化了 Whisper 预训练模型的架构，具备较低的计算成本，实验结果展示了其在鲁棒性、及时性和准确性方面的优势。

May, 2024

少即是多：准确无需 Web 规模数据的语音识别和翻译

最新的语音识别和翻译技术依赖于数十万小时的互联网语音数据。我们认为即使不依赖于互联网规模的数据，也可以达到最先进的准确性。Canary - 多语言 ASR 和语音翻译模型在英语、法语、西班牙语和德语等语言上优于当前最先进的模型 - Whisper、OWSM 和 Seamless-M4T，与这些模型相比，它使用的数据量更少一个数量级。三个关键因素使得这种数据高效模型成为可能：（1）基于 FastConformer 的注意力编码器 - 解码器架构，（2）使用机器翻译生成的合成数据进行训练，以及（3）先进的训练技术：数据平衡、动态数据融合、动态分桶和抗噪音微调。该模型以及权重和训练代码将开源。

Jun, 2024

将 Whisper 转化为实时转录系统

Whisper-Streaming 是基于 Whisper 的实时语音转录和翻译模型实现，使用本地协议和自适应延迟策略，能够在多语言会议的实时转录服务中展示高品质和 3.3 秒延迟。

Jul, 2023

发掘 Web 规模语音模型的潜在能力，实现零样本任务的普适性

本文通过调整 Prompt 的方式，从三个任务 (音视频语音识别、混合语音识别、语音翻译) 入手，探究了该模型 Whisper 的应用性能。实验证明，相对于默认 Prompt，本文提出的 Prompt 在零 - shot 任务上的表现提升了 10% 到 45%，并在一些数据集上甚至超越了 SotA 监督模型。此外，实验还揭示了 Whisper 的许多有趣属性，例如其对提示的鲁棒性、对语音口音的偏见，以及在潜在空间中的多语言理解。

May, 2023

WhisBERT: 亿字规模的多模式文本音频语言建模

多模态训练对语言模型的质量和效率有所改善，但在复杂目标优化和超越纯文本基线方面仍存在挑战。

Dec, 2023

Whisper-MCE：用于混合语言更佳性能的 Whisper 模型微调

本文介绍了 Whisper-MCE 模型在 minor language 和 mixed language 语音识别方面的卓越表现，同时提出一种新的评估机制以解决在这些语境下对其有效性进行评估时的挑战。通过将我们的模型与基线模型 whisper-large-v2 进行比较，我们展示了其准确捕捉原始音频内容、实现更高的识别准确率和更快的识别速度的卓越能力。值得注意的是，在识别 mixed language 的特定任务中，我们的模型超越了其他现有模型。

Oct, 2023

口语语言识别的生成语言表示

探索利用 Whisper 模型的解码器网络通过其生成机制提取语言特征来提高 LID 任务中的分类准确性。通过基于语言嵌入方法和直接优化 LID 输出的两种策略，在 MLS、VoxLingua107 和 CommonVoice 等大规模多语言数据集上进行实验以验证我们的方法的有效性。实验结果表明该方法在 LID 任务的领域内和领域外数据集上均具有良好效果。

Dec, 2023