跨语言伪标记的无监督自动语音识别

May, 2023

跨语言伪标记的无监督自动语音识别

Unsupervised ASR via Cross-Lingual Pseudo-Labeling

Tatiana Likhomanenko, Loren Lugosch, Ronan Collobert

TL;DR研究表明，在没有成对的语音和文本的情况下，可以使用其他语言的字符级声学模型引导新语言的无监督自动语音识别系统，方法基于两个主要组成部分：使用其他语言AM生成目标语言的伪标签并用目标语言模型加以约束。

Abstract

Recent work has shown that it is possible to train an $\textit{unsupervised}$ automatic speech recognition (ASR) system using only unpaired audio and text. Existing unsupervised ASR methods assume that no labeled data can be used for training. We argue that even if one does not have an

发现论文，激发创造

利用未对齐的语音和文本训练的非监督自动语音识别技术

本文研究无监督语音识别方法, 提出由语音向量表示、语义嵌入和无监督转换的框架, 这一框架可用于缺乏音频文本对齐数据和受监督方法无法应用的低资源语言。

Mar, 2018

无监督预训练在语言间具备良好的迁移能力

本篇研究调查了无监督预训练是否能够跨语言传输，以便自动语音识别系统（ASR）实现跨语言和多语言。研究表明，使用略加修改的对比性预测编码（CPC）预训练方式，能够提取和其他语言效果相当或甚至优于监督预训练的特征，证明了无监督方法在语言资源稀缺的情况下具有潜力。

Feb, 2020

无监督语音识别

本文介绍了wav2vec-U这种方法，可以通过无监督学习的方式训练语音识别模型，许多语种如Kyrgyz、Swahili和Tatar等成为了可能。

May, 2021

无监督自动语音识别:综述

这篇论文研究了使用无监督学习的方法，包括语音分割，语音信号到文本的映射和半监督模型来实现自动语音识别，以识别从语音数据中可以学到的极限并理解语音识别的最小要求，目的是为了在开发低资源语言的语音识别系统时优化资源和努力。

Jun, 2021

无监督文本转语音合成与无监督自动语音识别

该论文提出了一种基于对齐模块输出伪文本和另一个合成模块使用伪文本进行训练和实际文本进行推断的无监督文本转语音综合系统，可以在每种语言的10-20小时语音中实现与监督系统相当的性能，并开展了对文本单元和声码器影响的研究。

Mar, 2022

Maestro-U: 利用联合语音-文本表示学习进行零监督语音ASR

在这篇论文中，我们演示了利用匹配模态的联合语音和文本模型可以训练出一个巨大的多语言自动语音识别模型，即使对于某些语言没有使用受控制的语音作为训练数据。我们还展示了Maestro-U的表现，它可以使错误率降低68.5％，并将19种语言的CER降到15％以下。

Oct, 2022

简单有效的无监督语音翻译

本文利用无监督语音识别、机器翻译与语音合成技术，探讨实现无标注数据建立语音翻译系统的方法，通过管道方法或生成伪标签，对端到端语音翻译模型进行训练。同时，提出一种无监督域自适应方法，能够提供一定的性能提升。实验结果表明，本文提出的无监督语音翻译方法，在Libri-Trans基准测试的BLEU分数上超过以前报告的无监督效果的3.2个点，在CoVoST2数据集上，本文的最佳系统相对于最佳监督学习的端到端模型（无预训练），在五个语种（X-En）上平均提高5.0个BLEU分数。在MuST-C和CVSS基准测试上，本文也取得了有竞争力的结果。

Oct, 2022

无监督自动语音识别桥接语音和文本预训练模型

该研究提出了一种简单高效的无监督语音到语义预训练模型，使用无监督自动语音识别作为连接器，实现了不同任务的语音语言理解，其中包括最近热门的口语问答任务，并在 NMSQA 基准测试中达到了最新的最优结果。

Nov, 2022

无监督语音识别理论

本文提出了一个通用的理论框架，用于通过随机矩阵理论和神经切向核理论研究ASR-U系统的属性和解决超参数敏感性和训练不稳定等问题，并通过三类转换图上的合成语言的ASR-U实验提供强有力的理论依据。

Jun, 2023

朝向无需发音模型的无监督语音识别

本研究采用不依赖音素词典的新方法，通过仅包含高频英语词汇的语料库，在没有配对语音和文字数据的情况下，实现了近20%的词错误率，并证明了基于联合语音到语音和文本到文本的标记填充技术，使得无监督语音识别系统的性能超过了直接分布匹配方法。

Jun, 2024