关于异质数据源对语音转文字基础模型的影响

Jun, 2024

关于异质数据源对语音转文字基础模型的影响

On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models

Jinchuan Tian, Yifan Peng, William Chen, Kwanghee Choi, Karen Livescu...

TL;DR通过分析数据集，我们引入了 OWSM v3.2，采用两种关键策略（代理任务筛选数据和使用大型开放语言模型进行标点符号和大小写处理），从而提高了 Open Whisper-style Speech Model v3.1 基线的性能，并减少了 15% 的训练数据。

Abstract

The open whisper-style speech model (OWSM) series was introduced to achieve full transparency in building advanced speech-to-text (S2T) fo

open whisper-style speech model transparency speech-to-text data heterogeneity performance improvement

发现论文，激发创造

OWSM v3.1：基于 E-Branchformer 的更好更快的开放式耳语口语模型

利用 E-Branchformer 提高 OWSM v3.1 模型的性能和效率，尤其在推理速度上具有 25% 的提升，并推出具有 1B 规模的最大 E-Branchformer 语音模型。

Jan, 2024

利用开源工具和公开数据复现 Whisper-Style 训练

使用开源工具包与公开可用的数据，本文提出了一种 Open Whisper-style Speech Model (OWSM) 来训练语音模型，以解决以前无法公开访问的全流程模型开发所面临的性能提升、效率、鲁棒性、公正性和偏见等问题，并公开发布所有脚本、预训练模型和训练日志，以促进开放科学。

Sep, 2023

OWSM-CTC：一种用于语音识别、翻译和语种识别的开放式编码器语音基础模型

基于连接主义时间分类（CTC）的新型仅编码器语音模型（OWSM-CTC）在多语言自动语音识别（ASR），语音翻译（ST）和语言识别（LID）任务上取得了有竞争力的结果，并在 ST 上提高了 25％的相对改进，在推断中更为稳健且速度更快，同时也对长形式 ASR 结果有 20 倍的加速。

Feb, 2024

基于公共语音识别语料训练的仅解码器模型的极限探索

本文研究了使用公共英语 ASR 语料库训练仅解码器模型（DOTA）相比于基于编码器 - 解码器的开源复制模型（OWSM）和 Whisper 的大型语言模型（Whisper large-v3），在几乎所有英语 ASR 基准测试集上取得更好的性能，并在 15 个测试集中的 7 个上超过了 Whisper。我们在宽松许可下发布了我们的代码库和模型检查点。

Jan, 2024

基于基础模型和最优输运技术的语音翻译：UPC 参加 IWSLT23 比赛

本文介绍了 UPC 语音翻译小组提交给 IWSLT 2023 离线语音翻译任务的成果。他们使用了基于 wav2vec2.0 和 mBART50 的基础模型，通过 CTC 和最优传输的同时式预训练步骤，将语音编码器和文本编码器适应到一个空间中，从而最大限度地提高了机器翻译的传输学习。对于现有的 ST 语料库，他们还使用了 SegAugment 创建合成数据以更好地适应 IWSLT 测试集的自定义分割。最终，他们的最佳模型在 MuST-C tst-COMMON、IWLST.tst2020 和新发布的 IWSLT.ACLdev2023 上获得了 31.2、29.8 和 33.4 BLEU 分数。

Jun, 2023

SpeechStew: 使用简单的混合方法，训练一个大型神经网络，获得所有可用的语音识别数据

使用多种公共语音识别数据集训练的 SpeechStew 模型，在不使用外部语言模型的情况下，在各种任务中实现了 SOTA 或近 SOTA 的结果，并证明了其具有强大的迁移学习能力。

Apr, 2021

利用多个 TTS 目标提升语音翻译

通过分析不同合成目标语音对直接语音翻译模型的影响，本文提出了一个多任务框架，通过同时优化不同 TTS 系统的多个目标来提高 S2ST 表现，在 Fisher 西班牙语 - 英语数据集上实现了 2.8 BLEU 的一致改善效果。

Apr, 2023

本文评估了几种基于自监督或弱监督的尖端大型基础模型（包括 SeamlessM4T、SeamlessM4T v2 和 Whisper-large-v3）在三个混合代码语料库上的表现。我们发现自监督模型可以达到接近受监督模型的性能，表明多语言自监督预训练的有效性。我们还观察到这些模型在建模句内代码切换方面仍有改进空间，常犯相似错误并在代码切换任务的性能上表现不理想。此外，我们探索了 Whisper 的几种变体的有效性，并得出结论它们在代码切换场景中仍然有效，鼓励研究类似的自监督模型技术以提升代码切换任务的性能。

Dec, 2023

使用语音基础模型和大型语言模型的语音翻译：现有的和遗漏的是什么？

基于已发表论文的研究，本文提出了对迄今为止呈现的架构解决方案和训练策略进行统一观点的基础，并强调它们之间的相似性和差异性，展示了不同的设置和评估方法如何阻碍了每个架构构建块和训练选择的最佳性能解决方案的识别，最后，我们概述了针对该主题的未来工作的建议，旨在更好地理解 SF+LLM 解决方案的优势和劣势。

Feb, 2024

Wiki-En-ASR-Adapt：大规模英语自动语音识别定制的合成数据集

提出一个首个大规模的公开合成数据集，用于上下文拼写检查自定义自动语音识别（ASR）中的多样罕见和词汇外（OOV）短语，如专有名词或术语。通过注入两种类型的 “困难负面” 短语到模拟的偏见列表中，我们的方法可以创建数百万个真实的损坏 ASR 假设示例，并模拟定制任务的非平凡偏见列表，同时描述了自动挖掘它们的过程。通过在提出的数据集上训练开源定制模型进行实验，我们显示出注入困难负面偏见短语可以降低 WER 和误报数目。

Sep, 2023