本研究扩展了原有的韵律对准模型,以适应更宽松的音视频同步要求,实验显示,相比先前的工作,本方法在字幕可见和不可见情况下的口译应用中均提供了更好的主观观感。
Apr, 2022
本研究提出了一种自动配音的模型,通过同时进行翻译和语音持续时间的优化,实现生成的配音更好地匹配原始视频的时间轴,同时简化了整个系统的结构。
Feb, 2023
本文提出了一种基于神经网络的语音 - 语音翻译系统,实现了自动配音。实验结果表明自动配音的自然度得到了显著提升,包括多个技术创新点,如神经机器翻译、音频渲染、语音对位、语音合成等。
Jan, 2020
本文提出了一种利用神经网络模型实现视频配音的方法,该模型能够根据视频中的口型运动控制生成音频的音调,并且针对多人场景还开发了一种基于图像的扬声器嵌入模块,实现了在说话者面部表示下根据不同的人物角色生成不同的音调,经实验证明即便是在多人场景下也能达到与当前最优文本转语音模型相当的音频质量和音频与视频的时间同步表现。
Oct, 2021
该研究提出了一种新的电影配音架构,采用层次化韵律建模的方法,在三个方面的口型、面部表情和场景方面将视觉信息与对应的语音韵律相结合,包括使用情感增强器捕捉情境气氛,获得了良好的实验结果。
Dec, 2022
该研究针对影视配音中原始语音和目标语音的对齐问题,提出一种机器翻译系统,通过考虑语音时长控制翻译长度,构建了真实世界情景下的测试集,实现了对自然长度的更好控制。
Nov, 2022
报告介绍了一种协议以收集跨语言韵律映射和其他改善语音翻译的方法,包括收集语言之间紧密匹配的话语对的、数据收集的描述,以及一些相关的观察和思考。此报告面向使用语料库,扩展语料库和设计类似的双语对话数据收集的人。
本研究探讨了人类如何将视频内容从一种语言翻译成另一种语言的配音任务,利用了 319.57 小时的录像数据,结果挑战了一些关于人类配音和自动配音的普遍假定,论证了口头自然和翻译质量的重要性,同时揭示了源边声音在语音特征、情感强调等方面对人类配音的影响,强调自动配音系统需要更好地保留这些语音特征和语义转换,同时要重视时长约束。
本研究提出了一种无监督方法来构建语音到语音语料库,并利用视频帧、语音识别、机器翻译和噪声帧去除算法在短片段层面上对齐源语言和目标语言,以生成一种平行语音语料库,并应用于短音频片段和长音频剪辑,效果表现稳健。
Mar, 2022
利用制作脚本为演讲人辨别任务提取伪标记数据的半监督方法在 66 个节目测试集上相对于两个非监督基准模型显示出了 51.7% 的改进。
Aug, 2023