BriefGPT.xyz
Ask
alpha
关键词
multi-modal residual network
搜索结果 - 1
DiffAVA: 带视觉对齐的个性化文本到音频生成
该文章提出了一种基于视觉对齐的新型个性化文本转语音生成方法 ——DiffAVA,它使用多头注意力变换器聚合视觉特征的时间信息,并利用双模残差网络将时间视觉表示与文本嵌入进行融合,然后采用对比学习目标来匹配视觉对齐的文本嵌入和音频特征。研究结
→
PDF
a year ago
Prev
Next