无监督自动语音识别:综述
本文介绍了一种基于贝叶斯建模框架和语音嵌入向量的无监督语音识别方法,针对多个讲话者的语音数据进行了初步探索,最终通过顶层一致性分割和底层音节边界检测方法得出更好的单人和多人语音聚类结果。
Jun, 2016
本文研究无监督语音识别方法, 提出由语音向量表示、语义嵌入和无监督转换的框架, 这一框架可用于缺乏音频文本对齐数据和受监督方法无法应用的低资源语言。
Mar, 2018
本文提出了一种基于 Transformer 模型的几乎无监督学习方法,结合 TTS 和 ASR 的双重特性,通过少量的配对数据和额外的未配对数据,实现了对语音和文本领域的语言建模,并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现,以及 11.7% 的 ASR 错误率。
May, 2019
该论文提出了一种基于对齐模块输出伪文本和另一个合成模块使用伪文本进行训练和实际文本进行推断的无监督文本转语音综合系统,可以在每种语言的10-20小时语音中实现与监督系统相当的性能,并开展了对文本单元和声码器影响的研究。
Mar, 2022
该研究提出了一种简单高效的无监督语音到语义预训练模型,使用无监督自动语音识别作为连接器,实现了不同任务的语音语言理解,其中包括最近热门的口语问答任务,并在 NMSQA 基准测试中达到了最新的最优结果。
Nov, 2022
研究表明,在没有成对的语音和文本的情况下,可以使用其他语言的字符级声学模型引导新语言的无监督自动语音识别系统,方法基于两个主要组成部分:使用其他语言AM生成目标语言的伪标签并用目标语言模型加以约束。
May, 2023
本文提出了一个通用的理论框架,用于通过随机矩阵理论和神经切向核理论研究ASR-U系统的属性和解决超参数敏感性和训练不稳定等问题,并通过三类转换图上的合成语言的ASR-U实验提供强有力的理论依据。
Jun, 2023
本研究采用不依赖音素词典的新方法,通过仅包含高频英语词汇的语料库,在没有配对语音和文字数据的情况下,实现了近20%的词错误率,并证明了基于联合语音到语音和文本到文本的标记填充技术,使得无监督语音识别系统的性能超过了直接分布匹配方法。
Jun, 2024
本研究解决了以往听觉、视觉和视听语音识别(ASR、VSR和AVSR)研究独立进行的问题,提出了一种统一的训练策略来应对性能不均衡和冗余性的挑战。通过引入一种贪婪伪标签的方法,充分利用未标记样本,提高模型的性能,最终在多个数据集上达到了最新的技术水平。
Nov, 2024