Apr, 2025
AlignDiT:用于同步语音生成的多模态对齐扩散变换器
AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized
Speech Generation
TL;DR本研究解决了多模态到语音生成的问题,即从文本、视频和参考音频等多种输入模态合成高质量的语音。本文提出的AlignDiT采用了一种新的多模态对齐扩散变换器,能够生成准确、同步且自然的语音,显著提升了语音的可懂性、音频与视频的同步性以及与参考说话者的声音相似性,展现出在多项基准测试中的优越表现。