- 将分割任何模型扩展到音频和时间维度进行音频 - 视觉分割
通过分析视频帧之间的上下文跨模态关系,研究将 Segment Anything Model (SAM) 的能力扩展到音频 - 视觉场景序列,提出了一个融合了空时双向音频 - 视觉注意力 (ST-BAVA) 模块的模型,实现了对音频 - 视觉 - 渐进自信遮罩注意力网络用于音频 - 视觉分割
通过引入渐进自信掩蔽注意力网络(PMCANet),利用注意机制揭示音频信号和视觉帧之间的内在相关性,并设计了高效且有效的跨注意模块来通过选择查询标记增强语义感知。实验证明,我们的网络在需要更少的计算资源的情况下比其他 AVS 方法表现更好。
- 无监督音频视觉分割与模态对齐
通过无监督学习方法 MoCA,在像素级上将音频和视觉图像相互关联,实现音频视觉分割的目标,超过基线方法并在复杂情况下实现了显著的性能提升。
- CVPR通过未标记帧利用进行音频 - 视觉分割
在音视频分割中,我们通过利用邻近帧和远距帧的独特特征来提升性能,并通过自我训练的方式丰富数据多样性,从而发挥未标记帧的潜力。
- 音频线索加强的音频视觉分割引导
提出了 AVSAC 方法,通过构建双向音频 - 视觉解码器并采用二向桥接设计,实现了音频线索的增强和音频与视觉模态之间的连续交互,从而缩小模态不平衡、促进整合音频 - 视觉表示的有效学习。此外,提出了音频 - 视觉帧同步策略,通过更好的同步 - 合作有关系:探索多阶双边关系用于音频视觉分割
提出了一种名为 COMBO 的创新的音频 - 视觉转换器框架,其中探索了音频 - 视觉分割中的像素纠缠、模态纠缠和时间纠缠等三种纠缠关系,通过各种实验和消融研究表明该方法优于以往的最先进方法。
- 弱监督的音频 - 视觉分割
本文介绍了一种名为 WS-AVS 的弱监督音视频分割框架,通过多尺度多实例对比学习实现了多尺度音视频对齐和音视频分割,在单一源和多源情景下有效地进行了弱监督音视频分割。
- ICCV基于多模态变分自编码器的音频 - 视觉分割
通过提出的明确条件多模态变分自编码器(ECMVAE)来进行音频 - 视觉分割(AVS),从有效的表示学习的角度解决现有 AVS 方法中的问题,该方法的关键词包括明确条件多模态变分自编码器、音频 - 视觉分割、表示学习、交叉模态共享表示和音源 - 利用基础模型进行无监督音频 - 视觉分割
语音 - 视觉分割(AVS)通过像素级精确在视觉场景中描绘可听到的对象。我们提出了一种新的跨模态语义过滤(CMSF)方法,以解决这个问题,并利用现成的多模态基础模型来准确地关联潜在的音频 - 掩码对。我们的无监督方法在复杂情景中的多个听觉对 - BAVS:通过整合基础知识引导音频 - 视觉分割
本文提出了一种基于多模态基础知识的两阶段引导式音频 - 视觉分割框架用于消除分割中的背景噪音或离屏音,通过明确建立音频 - 视觉对应关系和在音频 - 视觉树上追踪校准对象标签的方式,实现了真实音频对象的有效分割。
- 双向生成改进音频 - 视觉分割
通过建立视觉特征与声音的鲁棒相关性,利用双向生成框架实现音频 - 视觉分割的改进性能,在 AVS 基准测试中取得新的最先进表现水平,并发布源代码与预训练模型。
- 对比条件潜扩散在视听分割中的应用
通过潜在扩散模型和对比学习,我们提出了一种用于音频 - 视觉分割的模型,以深入探究音频的贡献。我们将音频视为有条件生成任务,其中音频被定义为声音生成器分割的条件变量。我们的潜在扩散模型通过对地面真实分割地图的条件生成过程进行学习,确保了音频 - MM音视频分割、声音定位、语义感知声音对象定位
本研究提出了一种音频 - 视觉实例感知分割方法,旨在克服数据集偏差,并通过探索音频 - 视觉语义相关性来实现有效的声音对象分割。
- 音频感知的查询增强变换器用于音频 - 视觉分割
通过引入多模式变压器架构来深度融合和聚合音频 - 视觉特征,我们提出了一种新颖的音频感知查询增强转换器 (AuTR),用于解决音频 - 视觉分割任务。实验结果表明,我们的方法在多声音和开放场景中具有更好的普适性和性能优势。
- AVSegFormer: 基于 Transformer 的音视频分割
本文提出了一种基于 transformer 架构的音视频分割(AVS)框架 AVSegFormer,该框架引入了音频查询和可学习查询,利用注意力机制实现选择性关注有关的视觉特征,并使用中间 mask 损失增强了解码器的监督,有效解决了音视频 - 无需注释的音视频分割
本文提出了一种用于定位视觉场景中声音对象的 Audio-Visual Segmentation (AVS) 的方法,其中使用了缩放和无注释的管道来生成 AVS 模型的合成数据,还提出了一种 Audio-Aware Transformer ( - 听觉分离:通过解混音指导语义分割
本文提出了一种 Audio Unmixing and Semantic Segmentation Network (AUSS),通过音频解混和遮罩注意力机制,旨在建立音频流与图像像素之间的细粒度对应关系;为了增强模型的鲁棒性,还引入了自监督 - 音视频语义分割进一步探究
本文提出一个新的策略:Visual Post-production (VPO),旨在构建经济实惠、相对公正的音频 - 视觉语义分割基准数据集,为此引入了像素级音频 - 视觉对比学习方法并验证了该策略的有效性,最终结果表明 VPO 策略构建的 - ECCV带语义的音视频分割
本论文提出了一种新的问题 —— 音视频分割(AVS),旨在为可听的视频帧中产生声音的物体输出像素级地图,并构建了第一个 audio-visual segmentation(AVS)基准,即 AVSBench,为声音对象提供像素级注释。通过使 - ECCV音视频分割
本文提出音频与视觉分割(AVS)问题,并通过构建 AVSBench 基准集进行了研究。通过引入一种新颖的方法 —— 时间上的像素级音视频交互模块,可以指导视觉分割过程,同时设计了正则化损失函数以鼓励音视频映射的训练,比较了几种现有方法,发现