无监督语音识别理论

Jun, 2023

A Theory of Unsupervised Speech Recognition

Liming Wang, Mark Hasegawa-Johnson, Chang D. Yoo

TL;DR本文提出了一个通用的理论框架，用于通过随机矩阵理论和神经切向核理论研究ASR-U系统的属性和解决超参数敏感性和训练不稳定等问题，并通过三类转换图上的合成语言的ASR-U实验提供强有力的理论依据。

Abstract

unsupervised speech recognition (ASR-U) is the problem of learning automatic speech recognition (ASR) systems from unpaired speech-only and text-only corpora. While various algorithms exist to solve this problem,

发现论文，激发创造

利用未对齐的语音和文本训练的非监督自动语音识别技术

本文研究无监督语音识别方法, 提出由语音向量表示、语义嵌入和无监督转换的框架, 这一框架可用于缺乏音频文本对齐数据和受监督方法无法应用的低资源语言。

Mar, 2018

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

无监督语音识别

本文介绍了wav2vec-U这种方法，可以通过无监督学习的方式训练语音识别模型，许多语种如Kyrgyz、Swahili和Tatar等成为了可能。

May, 2021

无监督自动语音识别:综述

这篇论文研究了使用无监督学习的方法，包括语音分割，语音信号到文本的映射和半监督模型来实现自动语音识别，以识别从语音数据中可以学到的极限并理解语音识别的最小要求，目的是为了在开发低资源语言的语音识别系统时优化资源和努力。

Jun, 2021

无监督文本转语音合成与无监督自动语音识别

该论文提出了一种基于对齐模块输出伪文本和另一个合成模块使用伪文本进行训练和实际文本进行推断的无监督文本转语音综合系统，可以在每种语言的10-20小时语音中实现与监督系统相当的性能，并开展了对文本单元和声码器影响的研究。

Mar, 2022

无监督自动语音识别桥接语音和文本预训练模型

该研究提出了一种简单高效的无监督语音到语义预训练模型，使用无监督自动语音识别作为连接器，实现了不同任务的语音语言理解，其中包括最近热门的口语问答任务，并在 NMSQA 基准测试中达到了最新的最优结果。

Nov, 2022

跨语言伪标记的无监督自动语音识别

研究表明，在没有成对的语音和文本的情况下，可以使用其他语言的字符级声学模型引导新语言的无监督自动语音识别系统，方法基于两个主要组成部分：使用其他语言AM生成目标语言的伪标签并用目标语言模型加以约束。

May, 2023

利用N-Skipgram和位置一元匹配进行无监督语音识别

这篇论文介绍了一种新颖的ASR系统ESPUM，通过利用低阶N-skipgrams（最高N=3）和从小批量样本中收集到的位置单字统计数据，克服了无监督语音识别系统训练中的GAN相关不稳定性、语音和文本的不匹配以及显著的内存需求。在TIMIT基准测试中，我们的模型在ASR和音素分割任务中展现了竞争性能。您可以在此https URL上访问我们公开可用的代码。

Oct, 2023

自学习识别器：面向语音基础模型的无监督适应

我们提出了一个无监督适应框架，Self-TAught Recognizer (STAR)，它利用无标签数据增强自动语音识别（ASR）系统在噪声和口音等多样的目标领域中的稳健性。STAR基于基于Transformer相关架构和自回归解码的流行语音基础模型（例如Whisper，Canary）进行开发。

May, 2024

朝向无需发音模型的无监督语音识别

本研究采用不依赖音素词典的新方法，通过仅包含高频英语词汇的语料库，在没有配对语音和文字数据的情况下，实现了近20%的词错误率，并证明了基于联合语音到语音和文本到文本的标记填充技术，使得无监督语音识别系统的性能超过了直接分布匹配方法。

Jun, 2024