具有对应分类器的自监督音频空间定位
使用自监督学习的方法,提出在音频流和视觉流中,通过匹配空间信息识别声源位置,通过实验得到能够有效训练的模型并通过大规模视频数据集 YouTube-ASMR-300K 进行评估,在音视频任务中得到比监督学习和其他自监督方法更高的性能,并证明了在球面导向视屏中拓展我们的自监督方法。
Jun, 2020
通过使用端到端可训练的神经网络,我们的方法根据音频和 360 度视频帧的多模态分析,将由 360 度视频相机记录的单声道音频转换为空间音频,并从中分离和定位单独的声源于观看球上,因此通过我们的方法,仅使用 360 度视频和单声道音轨就可以推断声源的空间位置。
Sep, 2018
该研究提出了一种音频空间化框架,利用音频和视觉组件之间的关系将单通道视频转换为双耳音频,通过在音频和视觉模态中保留左右一致性的学习策略来实现自监督学习,验证结果表明该框架在半监督和全监督方案中具有很好的效果。
May, 2021
基于自监督方法,我们提出了一种学习表示的方法,基于主观视角视频中的空间音频 - 视觉对应关系。我们利用掩蔽自编码框架合成掩蔽的双耳音频,通过音频和视觉的协同作用来学习有用的空间关系。我们利用预先训练的特征来解决在社交场景中需要空间理解的两个下游视频任务:活跃说话者检测和空间音频去噪。通过大量实验证明,我们的特征足够通用,能够在两个公开具有挑战性的主观视角视频数据集 EgoCom 和 EasyCom 上改进多个最先进的基准模型。
Jul, 2023
介绍了一个针对学习自我监督前置任务的音频视频表示方法,通过引入 transformer 架构和空间对齐技术,提高了网络的感知和学习效率,结果表明,该方法在诸如音频视觉对应、空间对齐、动作识别、视频语义分割等多项任务中表现出良好的性能。
Nov, 2020
该论文介绍了一种利用 360 度图像和多通道音频信号的自监督训练方法来训练深度神经网络以区分多个声源对象的系统,旨在解决自主机器人理解周围环境的问题。
Jul, 2020
提出自监督的音视频同步学习方法,通过引入动态三元组损失和多项式损失函数来解决说话人分离问题,结果表明该方法在人机交互系统中大幅提高了 F1 分数和降低了分离误差率,并且介绍了一个新的大规模中文音视频语料库。
Feb, 2020
本文提出了一种自我监督学习方法,用于学习视频的表示,结合了 RGB 帧和相关的音频,通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置,并提出了新的对比目标。
Feb, 2023
通过多通道对比学习框架(MC-SimCLR),本研究展示了一个简单的方法来对空间音频的 'what' 和 'where' 进行编码。通过从无标签的空间音频中学习联合的频谱和空间表示,MC-SimCLR 能够在事件分类和声音定位等下游任务中提高效果。
Sep, 2023
本文提出了一种使用自监督学习把视频转化成一组离散的音频 - 视觉物体的模型,并通过注意力定位和分组声源,光流聚合信息等方式提高了模型的准确度。实验表明,本模型学习到的音频 - 视觉对象嵌入可用于解决多说话者音源分离、说话人定位、音频 - 视觉数据校正和活跃说话人检测等四个任务,同时,使用非人类演讲者数据表明了本方法的可泛化性和比其他相关研究更好的效果。
Aug, 2020