自动字幕直接语音翻译
该论文描述了 FBK 参与 IWSLT 2023 评估活动中的同时翻译和自动字幕轨道。我们的提交重点是使用直接架构来执行这两项任务:对于同时翻译,我们利用了离线训练模型已经获得的知识,并直接应用策略获得实时推理结果;对于字幕,我们对直接 ST 模型进行了调整,生成了符合规范的字幕,并利用相同的架构生成了与视听内容同步的时间戳。与 2021 年和 2022 年任务的排名前几位系统相比,我们的英德 SimulST 系统显示出更低的计算感知延迟,BLEU 提高了最多 3.5 分。我们的自动字幕系统在英德和英西文中分别比基于直接系统的唯一现有解决方案优于 3.7 和 1.7 SubER。
Sep, 2023
本研究提出了一种利用多模态方法将现有的语音翻译资料转换为符合 SubST 准则的字幕翻译资料的方法。通过训练一个基于音频和文本结合的分段模型,实现高质量的自动分段,并通过对比实验验证了该方法的有效性。
Sep, 2022
本研究提出一种利用电视字幕数据进行语音识别与自动字幕生成的多任务双解码器 Transformer 模型,通过模型共享的编码器,同时预测语音和生成字幕,无需预处理,实现了 ASR 性能的提升。
Oct, 2022
本研究提出了一种自动配音的模型,通过同时进行翻译和语音持续时间的优化,实现生成的配音更好地匹配原始视频的时间轴,同时简化了整个系统的结构。
Feb, 2023
本文提出了一种基于神经网络的语音 - 语音翻译系统,实现了自动配音。实验结果表明自动配音的自然度得到了显著提升,包括多个技术创新点,如神经机器翻译、音频渲染、语音对位、语音合成等。
Jan, 2020
该研究针对影视配音中原始语音和目标语音的对齐问题,提出一种机器翻译系统,通过考虑语音时长控制翻译长度,构建了真实世界情景下的测试集,实现了对自然长度的更好控制。
Nov, 2022
该研究提出了一种基于注意力机制的端到端学习的序列到序列神经网络,能够直接将一种语言的语音翻译成另一种语言的语音,无需中间文本表示,该方法通过学习将语音谱图映射到目标语言的谱图,同时也演示了译后语音合成的能力。研究在两个西班牙语到英语的语音翻译数据集上进行了实验,证明了该方法在这个极具挑战的任务上的可行性。
Apr, 2019