sounding objects | BriefGPT

关键词sounding objects

搜索结果 - 4

音像实例分割
提出了一项名为音频 - 视觉实例分割（AVIS）的新的多模态任务，目标是在可听的视频中同时识别、分割和跟踪单个声音对象实例；构建了第一个 AVIS 标准数据集（AVISeg），以便更好地促进这项研究；提出了一个基于声音分支和跨模态融合模块的
PDF8 months ago
MM音视频分割、声音定位、语义感知声音对象定位
本研究提出了一种音频 - 视觉实例感知分割方法，旨在克服数据集偏差，并通过探索音频 - 视觉语义相关性来实现有效的声音对象分割。
PDFa year ago
AVSegFormer: 基于 Transformer 的音视频分割
本文提出了一种基于 transformer 架构的音视频分割（AVS）框架 AVSegFormer，该框架引入了音频查询和可学习查询，利用注意力机制实现选择性关注有关的视觉特征，并使用中间 mask 损失增强了解码器的监督，有效解决了音视频
PDFa year ago
基于自监督视听匹配的区分性声音目标定位
本研究提出了一种两阶段学习框架，利用单一场景下的候选声音定位结果来学习鲁棒的对象表示，并通过引用预学习的对象知识生成了类感知对象本地化映射，在各种混音声音场景下选择声音和视觉对象类别分布的匹配，其中视听一致性被视为自我监督信号。实验结果表明
PDF4 years ago