将语音技术扩展至 1000 多种语言

May, 2023

Scaling Speech Technology to 1,000+ Languages

Vineel Pratap, Andros Tjandra, Bowen Shi, Paden Tomasello, Arun Babu...

TL;DR通过基于宗教文本的新数据集和有效利用自监督学习的方法，Massively Multilingual Speech（MMS）项目构建了包括 1406 种语言的预训练 wav2vec 2.0 模型、1107 种语言的单一多语言自动语音识别模型、以及相同数量的语音合成模型和 4017 种语言的语言识别模型。实验结果表明，我们的多语种语音识别模型在 FLEURS 基准测试的 54 种语言上使 Whisper 的单词错误率减少了一半以上，同时只使用了一小部分标记数据进行训练。

Abstract

Expanding the language coverage of speech technology has the potential to improve access to information for many more people. However, current speech technology is restricted to about one hundred languages which

speech technology language coverage self-supervised learning multilingual automatic speech recognition word error rate

发现论文，激发创造

元学习文本转语音在 7000 多种语言中的应用

通过大规模多语言预训练和元学习，我们构建了一个能够在超过 7000 种语言中生成语音的单一文本转语音合成系统，并通过客观评估和人工评价验证了该系统在多样化语言环境下的性能。通过公开发布我们的代码和模型，我们旨在为语言资源有限的社区提供支持，并在语音技术领域促进进一步的创新。

Jun, 2024

Google USM：扩展超过 100 种语言的自动语音识别

本论文介绍了通用语音模型（USM），它能够在 100 多种语言中自动识别语音，并使用多语言预训练和随机投影量化等技术来实现跨语言自动语音识别和语音到文本转换这些任务的最先进水平。同时，本文证明使用少量的标记数据集进行训练的 USM 模型在很多语言的领域内和领域外的语音识别任务中表现出了与 Whisper 模型相当或更好的性能。

Mar, 2023

面向非洲语言的大词汇量语音识别：多语言建模和自监督学习

应用多语言模型和自监督学习方法进行预训练和汇集可用数据来提高语音识别质量，为非洲语言建立大词汇量语音识别系统。

Aug, 2022

SpeechMatrix: 大规模挖掘的多语音言翻译语料库

本文介绍了一个用于多语言演讲语音翻译研究的大规模多语言语音语料库 SpeechMatrix，并建立了基于演讲记录的平行语音翻译模型，探讨了少有的多语言语音翻译问题和一些基于模型先训练和混合专家使用的解决方案。

Nov, 2022

低资源多语言和零样本多说者 TTS

在这项工作中，我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习（LAML）程序和对 TTS 编码器的修改，我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言，同时保留了推断新学习语言中甚至看不到的说话者声音的能力，并提供了开源的代码和训练模型。

Oct, 2022

无缝 M4T - 大规模多语言和多模式机器翻译

创造 Babel Fish 所需的条件是什么？本研究介绍了 SeamlessM4T，它是一个支持多种语言的单一模型，能够进行语音到文本、文本到语音、文本到文本的翻译，并且在翻译安全性方面进行了评估。

Aug, 2023

大规模多语言神经机器翻译

本文探讨了多语种神经机器翻译的极限，通过实验培训了适用于 102 种语言的模型，并在 59 种语言上表现出了优异的翻译效果，表明大规模多语种神经机器翻译模型对低资源环境下的翻译质量有积极支持和刺激。

Feb, 2019

基于流式端到端模型的大规模多语言语音识别

本文介绍了一种使用条件向量和针对语言的适配器层结合的多语言端到端模型，取得了比单语言模型和传统模型都更低的语音识别误差率。

Sep, 2019

大规模多语言自动语音识别：50 种语言，1 个模型，10 亿参数

本文探讨了利用单一声学模型进行多种语言训练，以提高低资源语言的自动语音识别性能，并简化支持多种语言的 ASR 系统的部署。作者在 51 种语言上进行广泛的基准测试和比较，表明与单语言训练相比，多语言训练的 ASR 模型可以提高识别性能，特别是对于低资源语言。与单语言基线相比，联合模型、具有语言输入的联合模型和多头模型的平均 WER 相对减少 20.9％、23％和 28.8％。据我们所知，这是第一次研究超过 50 种语言和超过 16,000 小时声音跨其的多语言 ASR 的大规模研究。

Jul, 2020

使用预训练模型的自适应多语言语音识别

使用预训练的 wav2vec 2.0 和 MBART50 模型，结合自适应权重技术，显著提高公共数据集上多语言语音识别的准确性，比纯监督学习提高 44%。同时我们还探索了如何通过微调结构以获得最佳模型。

May, 2022