May, 2024

TransVIP: 保留声音和等时性的语音到语音翻译系统

TL;DR该研究介绍了一种名为 TransVIP 的新模型框架,该模型通过级联方式利用多样的数据集,在维持发言者的声音特征和等时性的同时实现端到端推理,适用于视频配音等场景,并在法英语言对上的实验中表现出优于当前最先进的语音到语音翻译模型的性能。