BriefGPT.xyz
Ask
alpha
关键词
audio-visual representation learning
搜索结果 - 3
音频线索加强的音频视觉分割引导
提出了 AVSAC 方法,通过构建双向音频 - 视觉解码器并采用二向桥接设计,实现了音频线索的增强和音频与视觉模态之间的连续交互,从而缩小模态不平衡、促进整合音频 - 视觉表示的有效学习。此外,提出了音频 - 视觉帧同步策略,通过更好的同步
→
PDF
5 months ago
AV-SUPERB: 音频 - 视觉表示模型的多任务评估基准
音频 - 视觉表示学习,一种开发具有类似于人类感知的系统的方法,利用声音和视觉信息之间的相关性。然而,目前的模型往往专注于有限的任务集,并且对学习表示的泛化能力尚不清楚。因此,我们提出了 AV-SUPERB 基准,它在涵盖语音和音频处理中的
→
PDF
10 months ago
针对不同步视听事件的弱监督表征学习
本文提出了一种基于多模态学习的新型框架,可以从非同步的音频和视觉事件中学习,用于事件分类和定位。使用该方法可以取得弱标签音频事件视频大规模数据集的最先进结果。
PDF
6 years ago
Prev
Next