低资源语音到文本翻译
本文提出了改进低资源语音转文本翻译性能的技术和发现,实验结果显示多语言自动语音识别系统在低资源场景下作为良好的初始化,CTC 作为额外的目标有助于重新排序内部表示并提高最终翻译。通过实验,确定了对改进低资源设置最有贡献的各种因素(初始化、目标和超参数)。在只有 300 小时的预训练数据下,模型在 Tamasheq - French 数据中取得了 7.3 的 BLEU 分数,比 IWSLT 2022 的先前发表作品高 1.6 个百分点。
May, 2023
本文针对低资源语言语音合成任务,提出了从高资源语言中迁移知识的方法,并通过学习源与目标语言之间的语言符号映射,有效地构建了 TTS 系统,初步实验表明,只需要约 15 分钟的成对数据即可获得相对良好的 TTS 系统。
Apr, 2019
本文研究通过使用大量训练数据的自动语音识别任务,对语音翻译进行预训练,以提高低资源环境下的语音翻译性能,其中预训练的声学模型起到了关键的作用,并且可用于不同语言对之间的翻译。经验证本方法效果显著,能够在真实的低资源任务中提高性能。
Sep, 2018
我们提出一种递归编码器 - 解码器深度神经网络架构,直接将一种语言中的语音转换为另一种语言中的文本,通过多任务训练序列到序列的语音翻译和识别模型通过共享编码器网络来提高性能。
Mar, 2017
该研究提出了一种转移学习的方法,通过先训练一个高资源语言对以及将一些已学习的参数转移至低资源语言对,来初始化和约束训练,显著提高了 Bleu 分数,并将低资源机器翻译性能接近于强的基于语法的机器翻译系统,超过了其一个语言对的性能,并且用于重新评分可以进一步提高低资源机器翻译的表现。
Apr, 2016
本文研究通过引入更多本地依赖关系和使用单词对齐来学习翻译过程中的句子重新排序,在低资源语言中使用神经机器翻译 (NMT) 模型,产生仅使用 7 万个训练数据令人满意的翻译结果。
Aug, 2017
在这项工作中,我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习(LAML)程序和对 TTS 编码器的修改,我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言,同时保留了推断新学习语言中甚至看不到的说话者声音的能力,并提供了开源的代码和训练模型。
Oct, 2022