sound sources | BriefGPT - AI 论文速递

关键词sound sources

搜索结果 - 4

CVPR混合声音源的本地化
我们提出了一种同时定位视觉场景中多个声源的方法，使用 Jabri 等人的对比随机漫步所启发的模型，并结合了视听相似性度量，能够较好地解决声音混合的分离与声音和视觉信号的联合问题，实验结果表明该模型在定位多个声源方面优于其他自监督方法。
PDF2 years ago
基于语义相似样本更好地学习声音定位
本文的目标是在视觉场景中定位声源。我们的研究发现，之前的视听学习将语义匹配的音视频信息错误地分为负例，我们的方法直接将这些 “硬正例” 与响应图纳入对比学习目标，证明在 VGG-SS 和 SoundNet-Flickr 测试集上表现优异。
PDF2 years ago
ECCV从粗定位到精确定位的多声源定位
我们开发了一个基于视听学习框架的两阶段音频可视定位方法来解决在自然生动的视频中需要定位多个声音源的问题，该方法能够有效地将声音与特定的视觉来源进行对齐。
PDF4 years ago
卷积循环神经网络多声源到达方向估计
本文提出了一种深度神经网络，用于估算多个声源的到达方向，并通过使用所有通道的频谱图的幅度和相位作为输入来避免任何显式特征提取步骤。结论表明，该网络能够以高精度估算多个同时存在源的数量和各自的到达方向，并生成具有高信噪比的空间伪频谱。
PDF7 years ago