360° 视频自监督空间音频生成
该研究提出了一种音频空间化框架,利用音频和视觉组件之间的关系将单通道视频转换为双耳音频,通过在音频和视觉模态中保留左右一致性的学习策略来实现自监督学习,验证结果表明该框架在半监督和全监督方案中具有很好的效果。
May, 2021
通过 SEE-2-SOUND 引入的零样本方法,将多模式内容生成、神经生成模型和空间音频相结合,可以为高质量视频、图像和互联网动态图像生成空间音频,实现沉浸式体验。
Jun, 2024
使用自监督学习的方法,提出在音频流和视觉流中,通过匹配空间信息识别声源位置,通过实验得到能够有效训练的模型并通过大规模视频数据集 YouTube-ASMR-300K 进行评估,在音视频任务中得到比监督学习和其他自监督方法更高的性能,并证明了在球面导向视屏中拓展我们的自监督方法。
Jun, 2020
该论文介绍了一种利用 360 度图像和多通道音频信号的自监督训练方法来训练深度神经网络以区分多个声源对象的系统,旨在解决自主机器人理解周围环境的问题。
Jul, 2020
基于自监督方法,我们提出了一种学习表示的方法,基于主观视角视频中的空间音频 - 视觉对应关系。我们利用掩蔽自编码框架合成掩蔽的双耳音频,通过音频和视觉的协同作用来学习有用的空间关系。我们利用预先训练的特征来解决在社交场景中需要空间理解的两个下游视频任务:活跃说话者检测和空间音频去噪。通过大量实验证明,我们的特征足够通用,能够在两个公开具有挑战性的主观视角视频数据集 EgoCom 和 EasyCom 上改进多个最先进的基准模型。
Jul, 2023
本文提出了 Pano-AVQA 基准测试用于评估全景视频中音频 - 视觉关系和球形空间关系的语义理解。使用在线获取的 5.4K 个视频剪辑,收集了两种类型的新型问题 - 答案对。通过球形空间嵌入和多模态训练目标,使用多个基于 Transformer 的模型从 Pano-AVQA 中进行训练,结果表明我们的提出的球形空间嵌入和多模态训练目标对数据集上全景环境的语义理解有很好的帮助。
Oct, 2021
本文提出了一种使用自监督学习把视频转化成一组离散的音频 - 视觉物体的模型,并通过注意力定位和分组声源,光流聚合信息等方式提高了模型的准确度。实验表明,本模型学习到的音频 - 视觉对象嵌入可用于解决多说话者音源分离、说话人定位、音频 - 视觉数据校正和活跃说话人检测等四个任务,同时,使用非人类演讲者数据表明了本方法的可泛化性和比其他相关研究更好的效果。
Aug, 2020