本文探讨了机器配音中的特定问题,方法是利用神经机器翻译中的注意机制找到可能的短语并将其用于合成,记录了与专业配音翻译的相似语速比率,并改善了长对话行的唇同步问题。
Aug, 2019
本研究提出了一种自动配音的模型,通过同时进行翻译和语音持续时间的优化,实现生成的配音更好地匹配原始视频的时间轴,同时简化了整个系统的结构。
Feb, 2023
本文提出了一种基于神经网络的语音 - 语音翻译系统,实现了自动配音。实验结果表明自动配音的自然度得到了显著提升,包括多个技术创新点,如神经机器翻译、音频渲染、语音对位、语音合成等。
Jan, 2020
本研究探讨了人类如何将视频内容从一种语言翻译成另一种语言的配音任务,利用了 319.57 小时的录像数据,结果挑战了一些关于人类配音和自动配音的普遍假定,论证了口头自然和翻译质量的重要性,同时揭示了源边声音在语音特征、情感强调等方面对人类配音的影响,强调自动配音系统需要更好地保留这些语音特征和语义转换,同时要重视时长约束。
Dec, 2022
该研究针对影视配音中原始语音和目标语音的对齐问题,提出一种机器翻译系统,通过考虑语音时长控制翻译长度,构建了真实世界情景下的测试集,实现了对自然长度的更好控制。
Nov, 2022
该研究提出了一种新的电影配音架构,采用层次化韵律建模的方法,在三个方面的口型、面部表情和场景方面将视觉信息与对应的语音韵律相结合,包括使用情感增强器捕捉情境气氛,获得了良好的实验结果。
本文描述了将英语讲座视频半自动化地翻译成 9 种印度语言,使其具有良好的口头表现,同时降低了 75% 的人工成本。
本论文提出了一种直接自动生成目标语言字幕及相应时间戳的自动字幕模型,与现有的级联模型相比,在提供高质量字幕的同时也具有更高的一致性和维护单一模型的优点。
Sep, 2022
本研究提出了一种无监督方法来构建语音到语音语料库,并利用视频帧、语音识别、机器翻译和噪声帧去除算法在短片段层面上对齐源语言和目标语言,以生成一种平行语音语料库,并应用于短音频片段和长音频剪辑,效果表现稳健。
Mar, 2022
本文提出了一种利用神经网络模型实现视频配音的方法,该模型能够根据视频中的口型运动控制生成音频的音调,并且针对多人场景还开发了一种基于图像的扬声器嵌入模块,实现了在说话者面部表示下根据不同的人物角色生成不同的音调,经实验证明即便是在多人场景下也能达到与当前最优文本转语音模型相当的音频质量和音频与视频的时间同步表现。
Oct, 2021