BriefGPT.xyz
Ask
alpha
关键词
temporal and content-wise alignment
搜索结果 - 1
从视频中生成视觉对齐的音频
本文提出了一个名为 REGNET 的框架,利用外观和运动特征从视频帧中提取物体发出的声音,结合创新的音频转发正则化器进行更强的声音预测监督,在训练过程中使用了可控制影响因素的正则化器,并通过 Amazon Mechanical Turk 进
→
PDF
4 years ago
Prev
Next