BriefGPT.xyz
Ask
alpha
关键词
cross-modal transformer model
搜索结果 - 1
CVPR
视听呼应
本研究提出了一种使用交叉模态转换模型的视听匹配任务,该模型使用音频 - 视觉注意力将视觉特性注入音频,以生成逼真的音频输出,并使用自我监督训练目标从 “野外” Web 视频中学习声学匹配,以便将人类语音成功转换为多种实际环境,在实验中证明该
→
PDF
2 years ago
Prev
Next