语音翻译的大规模自监督和半监督学习
本文讨论了直接语音到语音翻译模型面临的数据稀缺性问题,探索了自监督预训练和数据增强技术来解决此问题,实验表明自监督预训练可以提高模型性能,结合数据增强技术可以进一步提高模型性能。
Apr, 2022
本文利用无监督语音识别、机器翻译与语音合成技术,探讨实现无标注数据建立语音翻译系统的方法,通过管道方法或生成伪标签,对端到端语音翻译模型进行训练。同时,提出一种无监督域自适应方法,能够提供一定的性能提升。实验结果表明,本文提出的无监督语音翻译方法,在 Libri-Trans 基准测试的 BLEU 分数上超过以前报告的无监督效果的 3.2 个点,在 CoVoST2 数据集上,本文的最佳系统相对于最佳监督学习的端到端模型(无预训练),在五个语种(X-En)上平均提高 5.0 个 BLEU 分数。在 MuST-C 和 CVSS 基准测试上,本文也取得了有竞争力的结果。
Oct, 2022
本文描述了一种使用编码器 - 解码器建模框架来联合预训练语音和文本用于语音翻译和识别的方法,其中包括四个自监督和有监督的子任务以进行跨模态学习,其贡献在于将文本语料库中的语言信息整合到语音预训练中。
Apr, 2022
本文主要探讨了在端到端语音翻译中数据稀缺的问题,并提出了一种利用级联和端到端语音翻译模型生成伪标签的方法,在 MuST-C 英法和英德数据集上达到了领先水平,同时也比仅对编码器进行语音识别任务的预训练方法更加有效。最后,通过直接使用端到端模型生成伪标签的自我训练方法证明了其有效性。
Jun, 2020
本论文旨在通过语义知识蒸馏来改进多语言语音转文本翻译中的跨语言迁移学习。通过使用 SAMU-XLS-R 来初始化编码器,我们在 CoVoST-2 和 Europarl 语音转文本数据集上实现了比基线模型更好的交叉语言任务知识传输,其中平均提高了 12.8 个 BLEU 分数。在零 - shot 翻译情景下,我们在未见过的中低资源语言上平均提高了 18.8 分和 11.9 个 BLEU 分数。
Jun, 2023
本文提出了一种基于单语音频和文本语料库的语音翻译系统框架,使用交叉模态双语词典将每个源语音片段对应到目标文本翻译,通过使用语言模型和序列去噪自编码器,对每个音频片段进行逐字翻译来提高翻译质量,实验结果表明,我们的无监督系统尽管没有监督,但达到了与监督方法相比可比的 BLEU 分数。
Nov, 2018
本文探讨了使用预训练的机器翻译或文本到语音合成模型将弱监督数据转化为语音到翻译对对于 ST 的训练比多任务学习效果更好的问题,展示了只使用弱监督数据即可以获得高质量的终到端 ST 模型,并讨论了避免模型对合成的语音过度拟合的方法。
Nov, 2018
本文旨在通过多种方法利用无监督和弱监督的语音和文本数据来提高基于 Translatotron 2 的直接语音到语音翻译系统的性能,实现在 21 种语言对上 BLEU 值提高 13.6(相对增长 113%),特别是对于低资源语言的提高更为显著(相对增长 398%)
Mar, 2022
我们介绍了一种新颖有效的语音翻译模型 LLM-ST,它基于预训练的大型语言模型(LLM),通过将 LLM 与语音编码器集成并使用多任务指导调优,LLM-ST 能够准确地生成带时间戳的转录和翻译,甚至可以处理长时间的音频输入。此外,我们的研究结果表明,在 LLM-ST 的环境下使用 CoT 提示可以带来优势。通过对英语和中文数据集的严格实验,我们展示了 LLM-ST 的卓越性能,在语音翻译领域树立了新的基准。演示:this https URL
Dec, 2023
通过应用声学效果生成大量合成数据,利用现有的大量不同语言的未标记文本,提出了一种有效的方法来利用大量的语音到语音翻译数据,改进翻译质量,在西班牙语 - 英语和俄语 - 英语翻译中提高了 2 个 BLEU,尤其是在极低资源情况下表现显着。
Oct, 2022