May, 2023
DiffAVA: 带视觉对齐的个性化文本到音频生成
DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment
Shentong Mo, Jing Shi, Yapeng Tian
TL;DR该文章提出了一种基于视觉对齐的新型个性化文本转语音生成方法 ——DiffAVA,它使用多头注意力变换器聚合视觉特征的时间信息,并利用双模残差网络将时间视觉表示与文本嵌入进行融合,然后采用对比学习目标来匹配视觉对齐的文本嵌入和音频特征。研究结果表明,DiffAVA 在视觉对齐的文本转音频生成方面具有竞争力的表现。