Mar, 2024

视频同步的文本到语音生成

TL;DR近期,研究人员在文本转语音生成方面的关注度不断增加,本研究提出了一个名为 T2AV-Bench 的创新基准和一个简单而有效的视频对齐文本到音频生成模型 T2AV,通过整合视觉对齐的文本嵌入到生成模型中,通过时间多头注意力转换器从视频数据中提取和理解时间细微差异,并通过 Audio-Visual ControlNet 将时态视觉表示与文本嵌入精确地融合,进一步增强集成性,以确保视觉对齐和时间一致性。经过对 AudioCaps 和 T2AV-Bench 的广泛评估,T2AV 在视觉对齐和时间一致性上设立了新的标准。