从语音到语音翻译到自动配音
本研究提出了一种自动配音的模型,通过同时进行翻译和语音持续时间的优化,实现生成的配音更好地匹配原始视频的时间轴,同时简化了整个系统的结构。
Feb, 2023
该研究针对影视配音中原始语音和目标语音的对齐问题,提出一种机器翻译系统,通过考虑语音时长控制翻译长度,构建了真实世界情景下的测试集,实现了对自然长度的更好控制。
Nov, 2022
本文提出了一种利用神经网络模型实现视频配音的方法,该模型能够根据视频中的口型运动控制生成音频的音调,并且针对多人场景还开发了一种基于图像的扬声器嵌入模块,实现了在说话者面部表示下根据不同的人物角色生成不同的音调,经实验证明即便是在多人场景下也能达到与当前最优文本转语音模型相当的音频质量和音频与视频的时间同步表现。
Oct, 2021
本研究旨在探讨在经过语料库特殊增强的情况下,对语音到文本翻译进行端到端的研究。我们不仅研究了在学习和解码期间没有源语言转录的极端情况,还研究了在训练时仅提供源语言转录的中间情况。实验结果表明,在这种设置下,可以训练出紧凑高效的端到端语音转换模型。同时,我们提供了语料库,并希望未来的研究能够挑战我们在该语料库上的语音翻译基线模型。
Feb, 2018
本研究提出了一种无监督方法来构建语音到语音语料库,并利用视频帧、语音识别、机器翻译和噪声帧去除算法在短片段层面上对齐源语言和目标语言,以生成一种平行语音语料库,并应用于短音频片段和长音频剪辑,效果表现稳健。
Mar, 2022
该研究提出了一种基于注意力机制的端到端学习的序列到序列神经网络,能够直接将一种语言的语音翻译成另一种语言的语音,无需中间文本表示,该方法通过学习将语音谱图映射到目标语言的谱图,同时也演示了译后语音合成的能力。研究在两个西班牙语到英语的语音翻译数据集上进行了实验,证明了该方法在这个极具挑战的任务上的可行性。
Apr, 2019
本文提出了一种基于神经网络的端到端系统,用于语音保留、唇面同步翻译视频,通过多个组件模型的组合,该系统能够在目标语言中生成保持语音强调、语音特征、原始扬声器面部视频的原始讲话者的视频,并在后续过程中使用人工智能技术进行语音识别、机器翻译、语音合成、语音转换和视频生成。经过实验,我们的系统能够有效地产生令人信服的视频,而且我们也分别对系统的单个组件进行了测试。
Jun, 2022