本文研究使用预训练模型来解决无监督语音识别中的音素和单词级别的问题。通过在 IPA 音素转写上微调预训练模型并使用语言模型进行解码,实验结果表明该方法可在某些语言上实现低于 20% 的单词错误率,8 种语言的平均错误率为 33.77%。
Oct, 2022
本研究使用零样本学习的方法解决语言无训练数据情况下语音转写的挑战,将语音音素分解成相应的发音属性,结合定制的声学模型,实现对目标语言中未知音素的识别,评估结果表明,该方法比传统多语言模型的平均音素误差率提高了 7.7%。
Feb, 2020
通过使用预训练模型,我们提出了一种零样本跨语言转移的新方法,它能够在低资源语言上实现任务感知的双语信息对齐,并利用未标记数据进行自我训练,从而实现多种任务上的最新技术提升,无需并行语料库或翻译模型。
Oct, 2023
本文研究一种可转移的音位嵌入框架,旨在解决少样本跨语言语音合成问题。在 8 分钟以下数据提供的极少样本情况下,作者提出了包括基于音位 TTS 模型和码本模块在内的框架。通过利用音位级平均的自我监督学习特征,实现了合成语音质量的有效改进。实验证明,使用 30 秒左右数据就能够合成出可理解的说话声音。
Jun, 2022
利用 Whisper 作为多语言语音模型示例,我们探究了语音编码器产生的话语表征,虽然保留了一些语言敏感信息,但是来自不同语言的单词被映射到相似的语义空间,从 Speech-to-Speech 检索任务中的高召回率可以看出;借助这个共享的嵌入空间,我们证明了在语音翻译中的零 - shot 跨语言转移;当 Whisper 模型仅使用英语到中文翻译数据进行微调时,它在其他语言的输入话语上表现出性能的提升;此外,在低资源语言的实验中,通过利用跨语言表示,Whisper 可以对在预训练过程中未见的语言的话语进行语音翻译。
Jul, 2024
使用零样本学习和多语言语言模型,该研究提出了一种只使用目标语言文本数据进行多语言语音合成(TTS)的方法,其能够成功地为只有文本资源的低资源语言开发 TTS 系统,大大拓展了 TTS 的覆盖范围并能取得高度理解度。
Jan, 2023
优化两阶段跨语言迁移学习在低资源语言中的应用,通过改进音素识别和音素到字素转换模型,优化了语音识别跨语言学习过程,合并共享发音特征的音素以增强识别准确性,引入全局音素噪声生成器降低错误传播。在 CommonVoice 12.0 数据集上的实验结果表明,对于低资源语言,我们的方法显著减少了单词误差率(WER),展示了方法的有效性,对于改进低资源语言中的两阶段语音识别系统,提供了潜在的跨语言迁移学习。
Dec, 2023
本文利用无监督语音识别、机器翻译与语音合成技术,探讨实现无标注数据建立语音翻译系统的方法,通过管道方法或生成伪标签,对端到端语音翻译模型进行训练。同时,提出一种无监督域自适应方法,能够提供一定的性能提升。实验结果表明,本文提出的无监督语音翻译方法,在 Libri-Trans 基准测试的 BLEU 分数上超过以前报告的无监督效果的 3.2 个点,在 CoVoST2 数据集上,本文的最佳系统相对于最佳监督学习的端到端模型(无预训练),在五个语种(X-En)上平均提高 5.0 个 BLEU 分数。在 MuST-C 和 CVSS 基准测试上,本文也取得了有竞争力的结果。
通过跨语言预训练的双语预训练方法,建立了通用编码器,将传递者和接受者的语言空间对齐,使得零翻译成为可能。实验结果表明,该方法显著优于强的基准线和各种多语言 NMT 方法。
Dec, 2019
在这项工作中,我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习(LAML)程序和对 TTS 编码器的修改,我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言,同时保留了推断新学习语言中甚至看不到的说话者声音的能力,并提供了开源的代码和训练模型。