BriefGPT.xyz
Ask
alpha
关键词
audio-visual alignment
搜索结果 - 2
VidMuse: 一个简单的长短期建模视频音乐生成框架
本文系统研究了仅基于视频生成音乐的方法,并提出了一个大规模数据集和一个名为 VidMuse 的简单框架,该框架通过在局部和全局可视线索的引导下,使用长短期模型创建与视频内容一致的音频轨迹,实现了高保真度的音乐生成及其与视频的音视一致性对齐。
→
PDF
a month ago
感应网络:用于自监督声源定位的音频 - 视觉模态缺口填补
通过引入感应网络和自适应阈值选择策略,本研究提出了一种用于自我监督声源定位的方法,以解决模态不一致性问题,并实现音频 - 视觉的一致对齐。在 SoundNet-Flickr 和 VGG-Sound Source 数据集上的实验证实了其在不同
→
PDF
a year ago
Prev
Next