学习空间感知的语言和音频嵌入
该论文提出了一个新的嵌入方案(sound-word2vec),用于学习基于声音的专业词嵌入。 这些嵌入的使用在文本检索和电影制作等任务中表现出了很好的效果,并提出来了许多新的声学和拟声词上的依赖关系。
Mar, 2017
本文针对语音与图像之间的语义关联关系,探讨了不需要传统监督方式的神经网络模型,并使用了Places 205和ADE20k数据集来验证模型,在不太需要标签、分割或模态对齐的情况下可以实现语音和图像的自动检索、详细定位以及进行时间、空间上的隐含的物体和单词检测。
Apr, 2018
本项研究提出一种基于双流网络的无监督算法,用于在视觉场景中定位声源,并针对该算法所存在的误差问题通过半监督学习进行修正,从而增强了算法的可靠性和泛化性。
Nov, 2019
使用自监督学习的方法,提出在音频流和视觉流中,通过匹配空间信息识别声源位置,通过实验得到能够有效训练的模型并通过大规模视频数据集YouTube-ASMR-300K进行评估,在音视频任务中得到比监督学习和其他自监督方法更高的性能,并证明了在球面导向视屏中拓展我们的自监督方法。
Jun, 2020
本文的目标是在视觉场景中定位声源。我们的研究发现,之前的视听学习将语义匹配的音视频信息错误地分为负例,我们的方法直接将这些“硬正例”与响应图纳入对比学习目标,证明在 VGG-SS 和 SoundNet-Flickr 测试集上表现优异。
Feb, 2022
我们提出了Spatial LibriSpeech,这是一个具有超过650小时19通道音频、一阶ambiSonics和可选分心噪声的空间音频数据集。Spatial LibriSpeech旨在用于机器学习模型训练,并包含源位置、说话方向、房间声学和几何标签。我们通过增加LibriSpeech样本与8k+合成房间中的200k+模拟声学条件来生成Spatial LibriSpeech。为了证明我们数据集的实用性,我们对四个空间音频任务进行模型训练,结果3D源定位中的中值绝对误差为6.60°、距离为0.43m、T30为90.66ms,DRR估计为2.74dB。我们展示了相同模型在广泛使用的评估数据集上具有良好的泛化能力,例如在TUT声事件2018的3D源定位中的中值绝对误差为12.43°,ACE挑战中T30估计为157.32ms。
Aug, 2023
我们的研究主要关注声音景观映射的任务,利用先进的模型对地理位置的语音、语音的文本描述以及其拍摄地的航拍图像进行编码,构建了三种模态的共享嵌入空间,从而可以根据文本或音频查询构建任何地理区域的声音景观地图。在SoundingEarth数据集上,我们的方法明显优于现有最先进方法,在图像到音频的召回率改善了从0.256提高到0.450。我们的代码可在此链接中找到。
Sep, 2023
我们提出了一个跨模态对齐任务作为声源定位的联合任务,以更好地学习音频和视觉模态之间的交互,并在声源定位和跨模态检索方面超越了现有的方法,从而实现了较高的定位性能和强大的跨模态语义理解。
Sep, 2023
利用大规模预训练的图像-文本模型对声源定位进行了扩展,通过音频信号与图像的对应关系,生成音频驱动的嵌入向量,以此对提供的音频生成驱动遮罩,并提取高亮区域的音频驱动图像特征,并与音频驱动的嵌入向量进行对齐,实现声音对象的更完整和更紧凑的定位图。广泛实验证明,该方法在表现上优于最先进的方法。
Nov, 2023
通过结合双耳声音场景分析模型的空间声音知觉能力和大型语言模型的自然语言推理能力,我们提出了BAT,以模拟人类的空间声音推理能力。BAT在各个方面进行了训练,并具有优越的空间声音认知和推理能力,展示了大型语言模型在解读和理解复杂的空间音频环境中的巨大潜力。
Feb, 2024