无监督自动语音识别:综述

Jun, 2021

Unsupervised Automatic Speech Recognition: A Review

Hanan Aldarmaki, Asad Ullah, Nazar Zaki

TL;DR这篇论文研究了使用无监督学习的方法，包括语音分割，语音信号到文本的映射和半监督模型来实现自动语音识别，以识别从语音数据中可以学到的极限并理解语音识别的最小要求，目的是为了在开发低资源语言的语音识别系统时优化资源和努力。

Abstract

automatic speech recognition (ASR) systems can be trained to achieve remarkable performance given large amounts of manually transcribed speech, but large labeled data sets can be difficult or expensive to acquire for all languages of interest. In this paper, we review the research lite

发现论文，激发创造

面向完全无监督大词汇语音识别的分段框架

本文介绍了一种基于贝叶斯建模框架和语音嵌入向量的无监督语音识别方法，针对多个讲话者的语音数据进行了初步探索，最终通过顶层一致性分割和底层音节边界检测方法得出更好的单人和多人语音聚类结果。

Jun, 2016

利用未对齐的语音和文本训练的非监督自动语音识别技术

本文研究无监督语音识别方法, 提出由语音向量表示、语义嵌入和无监督转换的框架, 这一框架可用于缺乏音频文本对齐数据和受监督方法无法应用的低资源语言。

Mar, 2018

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

无监督语音识别

本文介绍了wav2vec-U这种方法，可以通过无监督学习的方式训练语音识别模型，许多语种如Kyrgyz、Swahili和Tatar等成为了可能。

May, 2021

无监督文本转语音合成与无监督自动语音识别

该论文提出了一种基于对齐模块输出伪文本和另一个合成模块使用伪文本进行训练和实际文本进行推断的无监督文本转语音综合系统，可以在每种语言的10-20小时语音中实现与监督系统相当的性能，并开展了对文本单元和声码器影响的研究。

Mar, 2022

无监督自动语音识别桥接语音和文本预训练模型

该研究提出了一种简单高效的无监督语音到语义预训练模型，使用无监督自动语音识别作为连接器，实现了不同任务的语音语言理解，其中包括最近热门的口语问答任务，并在 NMSQA 基准测试中达到了最新的最优结果。

Nov, 2022

跨语言伪标记的无监督自动语音识别

研究表明，在没有成对的语音和文本的情况下，可以使用其他语言的字符级声学模型引导新语言的无监督自动语音识别系统，方法基于两个主要组成部分：使用其他语言AM生成目标语言的伪标签并用目标语言模型加以约束。

May, 2023

无监督语音识别理论

本文提出了一个通用的理论框架，用于通过随机矩阵理论和神经切向核理论研究ASR-U系统的属性和解决超参数敏感性和训练不稳定等问题，并通过三类转换图上的合成语言的ASR-U实验提供强有力的理论依据。

Jun, 2023

朝向无需发音模型的无监督语音识别

本研究采用不依赖音素词典的新方法，通过仅包含高频英语词汇的语料库，在没有配对语音和文字数据的情况下，实现了近20%的词错误率，并证明了基于联合语音到语音和文本到文本的标记填充技术，使得无监督语音识别系统的性能超过了直接分布匹配方法。

Jun, 2024

统一语音识别：一种用于听觉、视觉和视听输入的单一模型

本研究解决了以往听觉、视觉和视听语音识别（ASR、VSR和AVSR）研究独立进行的问题，提出了一种统一的训练策略来应对性能不均衡和冗余性的挑战。通过引入一种贪婪伪标签的方法，充分利用未标记样本，提高模型的性能，最终在多个数据集上达到了最新的技术水平。

Nov, 2024