May, 2023

DiffAVA: 带视觉对齐的个性化文本到音频生成

TL;DR该文章提出了一种基于视觉对齐的新型个性化文本转语音生成方法 ——DiffAVA,它使用多头注意力变换器聚合视觉特征的时间信息,并利用双模残差网络将时间视觉表示与文本嵌入进行融合,然后采用对比学习目标来匹配视觉对齐的文本嵌入和音频特征。研究结果表明,DiffAVA 在视觉对齐的文本转音频生成方面具有竞争力的表现。