自我训练的端到端语音翻译
本文探讨了自我训练在端到端语音识别中的应用,并展示给出了使用伪标签训练深度学习模型的方法,经过实验证明了该方法可以大幅提高基准模型的准确率,通过使用语音和语言模型生成伪标签和一些序列到序列模型的过滤机制,并采用新颖的集成方法提高伪标签的多样性,实验结果表明,在噪声语音环境下,使用自我训练的集成模型可以相对于只使用 100 小时标记数据的基准模型,使字错率(WER)提高了 33.9%;在清晰语音环境下,自我训练可以弥补基准模型和理想模型之间相对提高了至少 93.8%的差距。
Sep, 2019
本文讨论了直接语音到语音翻译模型面临的数据稀缺性问题,探索了自监督预训练和数据增强技术来解决此问题,实验表明自监督预训练可以提高模型性能,结合数据增强技术可以进一步提高模型性能。
Apr, 2022
本文利用无监督语音识别、机器翻译与语音合成技术,探讨实现无标注数据建立语音翻译系统的方法,通过管道方法或生成伪标签,对端到端语音翻译模型进行训练。同时,提出一种无监督域自适应方法,能够提供一定的性能提升。实验结果表明,本文提出的无监督语音翻译方法,在 Libri-Trans 基准测试的 BLEU 分数上超过以前报告的无监督效果的 3.2 个点,在 CoVoST2 数据集上,本文的最佳系统相对于最佳监督学习的端到端模型(无预训练),在五个语种(X-En)上平均提高 5.0 个 BLEU 分数。在 MuST-C 和 CVSS 基准测试上,本文也取得了有竞争力的结果。
Oct, 2022
本文研究使用自训练和伪标签技术,通过数据增强和过滤等手段,在语音识别中克服领域不匹配问题,从而提高了 0.6% 的音字误率和 2.2 个 BLEU 值百分点。
Dec, 2022
本文旨在探索自监督预训练语音表示是否可以优化高和低资源语音翻译任务,并且这些语音表示是否可以有效地和其他常见的低资源端到端语音翻译方法相结合,以及这些表示是否可以良好地跨语种迁移。结果表明,自监督预训练功能可以始终提高翻译性能,并且跨语言传输可以扩展到各种语言而无需或只需要少量调整。
Jun, 2020
通过利用大量未标记的语音和文本数据(包括 Libri-Light 语音音频语料库和 CommonCrawl 语言建模)的预训练和自我训练,我们的实验结果表明,在不利用监督学习数据的前提下,通过 wav2vec 2.0 预训练、自我训练和配合语言模型的方法,能够使所有四个 CoVoST 2 语言对的 BLEU 平均值提高 2.6。代码和模型将公开发布。
Apr, 2021
本文探讨了使用预训练的机器翻译或文本到语音合成模型将弱监督数据转化为语音到翻译对对于 ST 的训练比多任务学习效果更好的问题,展示了只使用弱监督数据即可以获得高质量的终到端 ST 模型,并讨论了避免模型对合成的语音过度拟合的方法。
Nov, 2018
本文旨在通过使用多语言方法探究转移学习在以端到端神经模型进行口语翻译中的有效性,结果表明,使用目标语言嵌入语义空间可以更有效地区分不同目标语言并改进结果,其中当对相似语言进行翻译时效果更为显著,特别是数据不足的情况下。
Oct, 2019
本文提出了一种将文本编码器引入预训练端到端语音翻译系统的方法,该方法可以提高适应一种模态到另一种模态的能力,特别是在源语言文本数据丰富的情况下,使得语音翻译模型可以从无标签和有标签数据中学习,并且还提出了一种去噪文本编码器的方法。在 MuST-C En-De、En-Fr 和 LibriSpeech En-Fr 任务上,该系统创造了新的最新技术。
Dec, 2022
本文介绍了深度学习在语音到文本翻译领域的应用,主要研究了不同端到端架构以及辅助性连接主义时间分类(CTC)损失函数的使用,着重探讨了预训练模型对最终性能的影响,实验证明预训练模型可以使 BLEU 指标提高 4%,TER 指标提高 5%,并且在 270 小时 IWSLT TED 演讲 En->De 和 100 小时 LibriSpeech Audiobooks En->Fr 上的实验结果表明,该方法可以超过当前的端到端最先进系统。
Nov, 2019