语音翻译与端到端的承诺:回顾我们的现状
本研究探索了一种同时实现语音转写和翻译的方法,并比较了传统串联式方法和端到端模型的表现。研究发现,直接模型不适用于这一任务,但采用耦合推理过程的端到端模型能够实现强一致性。此外,研究还引入了直接优化一致性的简单技术,并分析了一致性、转写准确性和翻译准确性之间的权衡。
Jul, 2020
本文介绍了如何使用端到端模型进行语音翻译,并在流式翻译设置中实现同时生成音频转录和翻译输出,并比较了与标准级联方法的表现,结果表明这种方法与级联模型的表现相似,但参数数量更少。
Jan, 2021
本文介绍了深度学习在语音到文本翻译领域的应用,主要研究了不同端到端架构以及辅助性连接主义时间分类(CTC)损失函数的使用,着重探讨了预训练模型对最终性能的影响,实验证明预训练模型可以使 BLEU 指标提高 4%,TER 指标提高 5%,并且在 270 小时 IWSLT TED 演讲 En->De 和 100 小时 LibriSpeech Audiobooks En->Fr 上的实验结果表明,该方法可以超过当前的端到端最先进系统。
Nov, 2019
通过多任务训练,提出了一种使用两个注意力机制的端到端可训练模型,用于直接语音翻译。该模型明显优于其他基线模型,并能更有效地利用辅助训练数据,特别适合于多任务训练。
Apr, 2019
本文提出了一种方法,通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题,并扩展了注意力机制的解码器和神经音响模式的解码器,以实现错误率的降低。
Feb, 2022
该研究论文介绍了端到端自动语音识别模型的分类和改进,讨论了它们对传统隐马尔科夫模型的影响,涵盖了模型、训练、解码和外部语言模型集成等各个方面,同时讨论了性能和部署机会以及未来的发展前景。
Mar, 2023
本文提出了一种端到端的可训练语音翻译模型,通过优化所有 ASR 和 MT 模型的参数而避免级联模型中的误差传播,并且通过使用人工神经网络实现 backpropagation 传递误差以实现同时提供转录和翻译,对于四个不同数据场景的实验表明,该模型在 BLEU 和 TER 方面均优于传统级联模型和直接模型。
Nov, 2020