360° 视频自监督空间音频生成

NIPSSep, 2018

Self-Supervised Generation of Spatial Audio for 360 Video

Pedro Morgado, Nuno Vasconcelos, Timothy Langlois, Oliver Wang

TL;DR通过使用端到端可训练的神经网络，我们的方法根据音频和 360 度视频帧的多模态分析，将由 360 度视频相机记录的单声道音频转换为空间音频，并从中分离和定位单独的声源于观看球上，因此通过我们的方法，仅使用 360 度视频和单声道音轨就可以推断声源的空间位置。

Abstract

We introduce an approach to convert mono audio recorded by a 360 video camera into spatial audio, a representation of the distribution of sound over the full viewing sphere. →

360 video spatial audio neural networks multi-modal analysis sound localization

发现论文，激发创造

具有对应分类器的自监督音频空间定位

本文介绍了一种使用自监督网络进行音频空间化的方法，并使用辅助分类器和大规模视频数据集来提高性能，取得了较好的实验结果。

May, 2019

利用部分监督的视听一致性生成空间音频

该研究提出了一种音频空间化框架，利用音频和视觉组件之间的关系将单通道视频转换为双耳音频，通过在音频和视觉模态中保留左右一致性的学习策略来实现自监督学习，验证结果表明该框架在半监督和全监督方案中具有很好的效果。

May, 2021

SEE-2-SOUND：零射击空间环境到空间音效

通过 SEE-2-SOUND 引入的零样本方法，将多模式内容生成、神经生成模型和空间音频相结合，可以为高质量视频、图像和互联网动态图像生成空间音频，实现沉浸式体验。

Jun, 2024

左右分辨：学习视听的空间对应关系

使用自监督学习的方法，提出在音频流和视觉流中，通过匹配空间信息识别声源位置，通过实验得到能够有效训练的模型并通过大规模视频数据集 YouTube-ASMR-300K 进行评估，在音视频任务中得到比监督学习和其他自监督方法更高的性能，并证明了在球面导向视屏中拓展我们的自监督方法。

Jun, 2020

通过概率空间建模的自监督神经音频视觉声源定位

该论文介绍了一种利用 360 度图像和多通道音频信号的自监督训练方法来训练深度神经网络以区分多个声源对象的系统，旨在解决自主机器人理解周围环境的问题。

Jul, 2020

身体声响：利用身体姿势和音频进行人体 3D 空间声音建模

通过从头戴式麦克风获取的音频信号和身体姿势作为输入，生成围绕发射者身体的三维声场，从而可以在三维空间的任意位置呈现空间音频。

Nov, 2023

双耳声音的语义物体预测和空间声音超分辨率

本文介绍了一种基于双耳声音的声音制造对象的语义标记方法，利用跨模态蒸馏框架让视觉和听觉系统相互学习，形成多任务训练网络等手段提高系统的性能。

Mar, 2020

从视听一致性中学习自我中心视频的空间特征

基于自监督方法，我们提出了一种学习表示的方法，基于主观视角视频中的空间音频 - 视觉对应关系。我们利用掩蔽自编码框架合成掩蔽的双耳音频，通过音频和视觉的协同作用来学习有用的空间关系。我们利用预先训练的特征来解决在社交场景中需要空间理解的两个下游视频任务：活跃说话者检测和空间音频去噪。通过大量实验证明，我们的特征足够通用，能够在两个公开具有挑战性的主观视角视频数据集 EgoCom 和 EasyCom 上改进多个最先进的基准模型。

Jul, 2023

Pano-AVQA: 360° 视频上基于感知的音视问题回答

本文提出了 Pano-AVQA 基准测试用于评估全景视频中音频 - 视觉关系和球形空间关系的语义理解。使用在线获取的 5.4K 个视频剪辑，收集了两种类型的新型问题 - 答案对。通过球形空间嵌入和多模态训练目标，使用多个基于 Transformer 的模型从 Pano-AVQA 中进行训练，结果表明我们的提出的球形空间嵌入和多模态训练目标对数据集上全景环境的语义理解有很好的帮助。

Oct, 2021

视频中音视频对象的自监督学习

本文提出了一种使用自监督学习把视频转化成一组离散的音频 - 视觉物体的模型，并通过注意力定位和分组声源，光流聚合信息等方式提高了模型的准确度。实验表明，本模型学习到的音频 - 视觉对象嵌入可用于解决多说话者音源分离、说话人定位、音频 - 视觉数据校正和活跃说话人检测等四个任务，同时，使用非人类演讲者数据表明了本方法的可泛化性和比其他相关研究更好的效果。

Aug, 2020