关键词sound source localization
搜索结果 - 13
- CLIP 能帮助声源定位吗?
利用大规模预训练的图像 - 文本模型对声源定位进行了扩展,通过音频信号与图像的对应关系,生成音频驱动的嵌入向量,以此对提供的音频生成驱动遮罩,并提取高亮区域的音频驱动图像特征,并与音频驱动的嵌入向量进行对齐,实现声音对象的更完整和更紧凑的定 - 三维重建房间的新颖视角声学合成
探究结合盲音频录音和 3D 场景信息对新视角声学合成的益处。通过 2-4 个麦克风的音频录音和包含多个未知声源的场景的 3D 几何学和材料,估计场景中的任何声音。我们确定了新视角声学合成的主要挑战,即声源定位、分离和去混响。虽然简单地训练端 - ICCV声源定位是关于跨模态对齐的全部内容
我们提出了一个跨模态对齐任务作为声源定位的联合任务,以更好地学习音频和视觉模态之间的交互,并在声源定位和跨模态检索方面超越了现有的方法,从而实现了较高的定位性能和强大的跨模态语义理解。
- MM音频视觉空间融合与递归注意力的稳健声源定位
提出了一种音频 - 视觉空间整合网络,利用音频和视觉模态的空间线索来模仿人类在检测制造声音的对象时的行为,并引入了递归注意网络来递归地专注于对象,从而形成更准确的注意区域,通过利用音频 - 视觉模态的空间线索和递归地关注对象,我们的方法可以 - 用于位置声源定位的双输入神经网络
在信号处理应用中,元数据可以与高维信号结合使用以产生所需的输出。我们引入了双输入神经网络(DI-NNs)作为一种简单有效的方法,用于在神经网络中对这两种数据类型进行建模,并在各种难度和真实性的情景中对其进行训练和评估,并与替代架构以及经典最 - CVPR用于混音声源定位的音视频分组网络
本文提出了一种 AVGN 网络,通过可学习的音频 - 视觉类别权重直接学习每个音频源的语义特征,可以同时定位多个音频源,达到了先进的音响目标定位效果。
- CVPR自监督预测学习:一种无需负样本的视觉场景声源定位方法
本文提出了自监督预测学习 (SSPL) 方法,通过显式正样本挖掘以实现声音定位,将声音来源与视频帧的两个增强视图相结合,并引入了预测编码模块以帮助 SSPL 逐步聚焦目标对象和有效降低正向对难度。实验结果表明,SSPL 在两个标准的声音定位 - MM多音源二维定位学习
本文提出了基于深度学习的多声源定位算法,使用多个麦克风阵列找到封闭环境中多个声源的二维笛卡尔坐标,通过编码 - 解码结构和两个改进措施实现任务,并提出了两种新的定位表示方法,学习了新指标以实现分辨率基础上的多源关联和对比不同方法的评估。作者 - MM自监督视听表示学习的协同关注网络
本文提出了一种基于自我监督和共注意力机制的框架,通过区分具有关联性的视觉和声音信息,提出了三种不同的共注意力模块以训练神经网络,并通过测试了解了该方法的广泛和可转移性,成功地在先前的任务中取得了最先进的结果,解决了多声源场景的问题。
- 自监督多感官特征的音频 - 视觉场景分析
本文提出了一种融合多感官表征的方法,通过神经网络自动预测视频帧和音频的时间对齐情况,实现声音定位、视听行为识别和音频源分离等三个应用。
- 利用深度学习的阶段麦克风阵列进行声源定位
本研究采用了卷积神经网络作为一种高效且具有高精度的算法,通过对交叉谱矩阵的直接分析寻找声源分布,从而在高频下以很短的时间内实现与传统波束成形相同精度的声源定位。
- 移动机器人麦克风阵列的鲁棒声源定位
本文介绍使用 8 个麦克风的时间延迟到达估计法在三维空间中实现机器人对不同类型声源的实时定位,能够在 3 米范围内,3 度的精度内快速响应,以补充视觉对环境中感兴趣人或事件的本地化。
- 使用波束成形和粒子滤波的同时移动声源的鲁棒定位和跟踪
本文提出了一种使用八个麦克风阵列实现鲁棒声源定位和跟踪的方法,可在 7 米范围内实时定位和跟踪多种类型的移动声源,从而使移动机器人能够在现实环境中更自然地与人们交互。