无监督语音识别理论
本文研究无监督语音识别方法, 提出由语音向量表示、语义嵌入和无监督转换的框架, 这一框架可用于缺乏音频文本对齐数据和受监督方法无法应用的低资源语言。
Mar, 2018
本文提出了一种基于 Transformer 模型的几乎无监督学习方法,结合 TTS 和 ASR 的双重特性,通过少量的配对数据和额外的未配对数据,实现了对语音和文本领域的语言建模,并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现,以及 11.7% 的 ASR 错误率。
May, 2019
这篇论文研究了使用无监督学习的方法,包括语音分割,语音信号到文本的映射和半监督模型来实现自动语音识别,以识别从语音数据中可以学到的极限并理解语音识别的最小要求,目的是为了在开发低资源语言的语音识别系统时优化资源和努力。
Jun, 2021
该论文提出了一种基于对齐模块输出伪文本和另一个合成模块使用伪文本进行训练和实际文本进行推断的无监督文本转语音综合系统,可以在每种语言的10-20小时语音中实现与监督系统相当的性能,并开展了对文本单元和声码器影响的研究。
Mar, 2022
该研究提出了一种简单高效的无监督语音到语义预训练模型,使用无监督自动语音识别作为连接器,实现了不同任务的语音语言理解,其中包括最近热门的口语问答任务,并在 NMSQA 基准测试中达到了最新的最优结果。
Nov, 2022
研究表明,在没有成对的语音和文本的情况下,可以使用其他语言的字符级声学模型引导新语言的无监督自动语音识别系统,方法基于两个主要组成部分:使用其他语言AM生成目标语言的伪标签并用目标语言模型加以约束。
May, 2023
这篇论文介绍了一种新颖的ASR系统ESPUM,通过利用低阶N-skipgrams(最高N=3)和从小批量样本中收集到的位置单字统计数据,克服了无监督语音识别系统训练中的GAN相关不稳定性、语音和文本的不匹配以及显著的内存需求。在TIMIT基准测试中,我们的模型在ASR和音素分割任务中展现了竞争性能。您可以在此https URL上访问我们公开可用的代码。
Oct, 2023
我们提出了一个无监督适应框架,Self-TAught Recognizer (STAR),它利用无标签数据增强自动语音识别(ASR)系统在噪声和口音等多样的目标领域中的稳健性。STAR基于基于Transformer相关架构和自回归解码的流行语音基础模型(例如Whisper,Canary)进行开发。
May, 2024
本研究采用不依赖音素词典的新方法,通过仅包含高频英语词汇的语料库,在没有配对语音和文字数据的情况下,实现了近20%的词错误率,并证明了基于联合语音到语音和文本到文本的标记填充技术,使得无监督语音识别系统的性能超过了直接分布匹配方法。
Jun, 2024