听写翻译:端到端语音转文本翻译的概念验证
本文介绍了深度学习在语音到文本翻译领域的应用,主要研究了不同端到端架构以及辅助性连接主义时间分类(CTC)损失函数的使用,着重探讨了预训练模型对最终性能的影响,实验证明预训练模型可以使 BLEU 指标提高 4%,TER 指标提高 5%,并且在 270 小时 IWSLT TED 演讲 En->De 和 100 小时 LibriSpeech Audiobooks En->Fr 上的实验结果表明,该方法可以超过当前的端到端最先进系统。
Nov, 2019
本研究旨在探讨在经过语料库特殊增强的情况下,对语音到文本翻译进行端到端的研究。我们不仅研究了在学习和解码期间没有源语言转录的极端情况,还研究了在训练时仅提供源语言转录的中间情况。实验结果表明,在这种设置下,可以训练出紧凑高效的端到端语音转换模型。同时,我们提供了语料库,并希望未来的研究能够挑战我们在该语料库上的语音翻译基线模型。
Feb, 2018
本文提出了一种基于单语音频和文本语料库的语音翻译系统框架,使用交叉模态双语词典将每个源语音片段对应到目标文本翻译,通过使用语言模型和序列去噪自编码器,对每个音频片段进行逐字翻译来提高翻译质量,实验结果表明,我们的无监督系统尽管没有监督,但达到了与监督方法相比可比的 BLEU 分数。
Nov, 2018
该研究提出了一种基于注意力机制的端到端学习的序列到序列神经网络,能够直接将一种语言的语音翻译成另一种语言的语音,无需中间文本表示,该方法通过学习将语音谱图映射到目标语言的谱图,同时也演示了译后语音合成的能力。研究在两个西班牙语到英语的语音翻译数据集上进行了实验,证明了该方法在这个极具挑战的任务上的可行性。
Apr, 2019
本文针对低资源语言语音合成任务,提出了从高资源语言中迁移知识的方法,并通过学习源与目标语言之间的语言符号映射,有效地构建了 TTS 系统,初步实验表明,只需要约 15 分钟的成对数据即可获得相对良好的 TTS 系统。
Apr, 2019
本研究探索了一种同时实现语音转写和翻译的方法,并比较了传统串联式方法和端到端模型的表现。研究发现,直接模型不适用于这一任务,但采用耦合推理过程的端到端模型能够实现强一致性。此外,研究还引入了直接优化一致性的简单技术,并分析了一致性、转写准确性和翻译准确性之间的权衡。
Jul, 2020
本文通过重新审视机器翻译中的 ST 和文本翻译任务技术,提出了一套训练 E2E ST 系统的最佳实践,其中包括参数化距离惩罚、模拟本地化技术等。实验表明,在不使用转录文本和预训练的情况下,该系统可以达到并甚至超过之前使用预训练方法的研究水平,对于极低资源环境依然有差距。此外,我们还首次证明了神经声学特征建模的可行性,并在 ST 任务中取得了令人鼓舞的效果。
Jun, 2022
本文探讨语音转文本翻译的问题,使用无监督术语发现技术将音频文件转化为伪文本,并使用其进行简单的词袋机翻译,面对跨讲话者无监督术语发现的难题,系统实现了低召回率的跨语音翻译。
Feb, 2017