跨语言伪标记的无监督自动语音识别
本文研究无监督语音识别方法, 提出由语音向量表示、语义嵌入和无监督转换的框架, 这一框架可用于缺乏音频文本对齐数据和受监督方法无法应用的低资源语言。
Mar, 2018
本篇研究调查了无监督预训练是否能够跨语言传输,以便自动语音识别系统(ASR)实现跨语言和多语言。研究表明,使用略加修改的对比性预测编码(CPC)预训练方式,能够提取和其他语言效果相当或甚至优于监督预训练的特征,证明了无监督方法在语言资源稀缺的情况下具有潜力。
Feb, 2020
这篇论文研究了使用无监督学习的方法,包括语音分割,语音信号到文本的映射和半监督模型来实现自动语音识别,以识别从语音数据中可以学到的极限并理解语音识别的最小要求,目的是为了在开发低资源语言的语音识别系统时优化资源和努力。
Jun, 2021
该论文提出了一种基于对齐模块输出伪文本和另一个合成模块使用伪文本进行训练和实际文本进行推断的无监督文本转语音综合系统,可以在每种语言的10-20小时语音中实现与监督系统相当的性能,并开展了对文本单元和声码器影响的研究。
Mar, 2022
在这篇论文中,我们演示了利用匹配模态的联合语音和文本模型可以训练出一个巨大的多语言自动语音识别模型,即使对于某些语言没有使用受控制的语音作为训练数据。我们还展示了Maestro-U的表现,它可以使错误率降低68.5%,并将19种语言的CER降到15%以下。
Oct, 2022
本文利用无监督语音识别、机器翻译与语音合成技术,探讨实现无标注数据建立语音翻译系统的方法,通过管道方法或生成伪标签,对端到端语音翻译模型进行训练。同时,提出一种无监督域自适应方法,能够提供一定的性能提升。实验结果表明,本文提出的无监督语音翻译方法,在Libri-Trans基准测试的BLEU分数上超过以前报告的无监督效果的3.2个点,在CoVoST2数据集上,本文的最佳系统相对于最佳监督学习的端到端模型(无预训练),在五个语种(X-En)上平均提高5.0个BLEU分数。在MuST-C和CVSS基准测试上,本文也取得了有竞争力的结果。
Oct, 2022
该研究提出了一种简单高效的无监督语音到语义预训练模型,使用无监督自动语音识别作为连接器,实现了不同任务的语音语言理解,其中包括最近热门的口语问答任务,并在 NMSQA 基准测试中达到了最新的最优结果。
Nov, 2022
本文提出了一个通用的理论框架,用于通过随机矩阵理论和神经切向核理论研究ASR-U系统的属性和解决超参数敏感性和训练不稳定等问题,并通过三类转换图上的合成语言的ASR-U实验提供强有力的理论依据。
Jun, 2023
本研究采用不依赖音素词典的新方法,通过仅包含高频英语词汇的语料库,在没有配对语音和文字数据的情况下,实现了近20%的词错误率,并证明了基于联合语音到语音和文本到文本的标记填充技术,使得无监督语音识别系统的性能超过了直接分布匹配方法。
Jun, 2024