BriefGPT.xyz
Ask
alpha
关键词
cross-modality semantic filtering
搜索结果 - 1
利用基础模型进行无监督音频 - 视觉分割
语音 - 视觉分割(AVS)通过像素级精确在视觉场景中描绘可听到的对象。我们提出了一种新的跨模态语义过滤(CMSF)方法,以解决这个问题,并利用现成的多模态基础模型来准确地关联潜在的音频 - 掩码对。我们的无监督方法在复杂情景中的多个听觉对
→
PDF
10 months ago
Prev
Next