BriefGPT.xyz
Ask
alpha
关键词
cross-attention-based feature fusion
搜索结果 - 1
透视对话:基于扩散模型的音频 - 视觉语音分离
本文介绍了 AVDiffuSS,一种基于扩散机制的音视频语音分离模型,通过视觉线索从声音混合中提取目标发言者的声音,该模型在保持自然性方面具有挑战,并提出了一种基于交叉注意力的特征融合机制,以实现两种模态的有效融合,并在语音生成中集成语音视
→
PDF
8 months ago
Prev
Next