BriefGPT.xyz
Ask
alpha
关键词
sounding objects
搜索结果 - 4
音像实例分割
提出了一项名为音频 - 视觉实例分割(AVIS)的新的多模态任务,目标是在可听的视频中同时识别、分割和跟踪单个声音对象实例;构建了第一个 AVIS 标准数据集(AVISeg),以便更好地促进这项研究;提出了一个基于声音分支和跨模态融合模块的
→
PDF
8 months ago
MM
音视频分割、声音定位、语义感知声音对象定位
本研究提出了一种音频 - 视觉实例感知分割方法,旨在克服数据集偏差,并通过探索音频 - 视觉语义相关性来实现有效的声音对象分割。
PDF
a year ago
AVSegFormer: 基于 Transformer 的音视频分割
本文提出了一种基于 transformer 架构的音视频分割(AVS)框架 AVSegFormer,该框架引入了音频查询和可学习查询,利用注意力机制实现选择性关注有关的视觉特征,并使用中间 mask 损失增强了解码器的监督,有效解决了音视频
→
PDF
a year ago
基于自监督视听匹配的区分性声音目标定位
本研究提出了一种两阶段学习框架,利用单一场景下的候选声音定位结果来学习鲁棒的对象表示,并通过引用预学习的对象知识生成了类感知对象本地化映射,在各种混音声音场景下选择声音和视觉对象类别分布的匹配,其中视听一致性被视为自我监督信号。实验结果表明
→
PDF
4 years ago
Prev
Next