SEE-2-SOUND：零射击空间环境到空间音效

Jun, 2024

SEE-2-SOUND：零射击空间环境到空间音效

SEE-2-SOUND: Zero-Shot Spatial Environment-to-Spatial Sound

Rishit Dagli, Shivesh Prakash, Robert Wu, Houman Khosravani

TL;DR通过 SEE-2-SOUND 引入的零样本方法，将多模式内容生成、神经生成模型和空间音频相结合，可以为高质量视频、图像和互联网动态图像生成空间音频，实现沉浸式体验。

Abstract

Generating combined visual and auditory sensory experiences is critical for the consumption of immersive content. Recent advances in neural generative models have enabled the creation of high-resolution content across multiple modalities such as images, text, speech, and videos. Despite these successes, there remains a significant gap in the generation of hi

multimodal content generation neural generative models spatial audio see-2-sound immersive experiences

发现论文，激发创造

360° 视频自监督空间音频生成

通过使用端到端可训练的神经网络，我们的方法根据音频和 360 度视频帧的多模态分析，将由 360 度视频相机记录的单声道音频转换为空间音频，并从中分离和定位单独的声源于观看球上，因此通过我们的方法，仅使用 360 度视频和单声道音轨就可以推断声源的空间位置。

Sep, 2018

声音空间： 3D 环境下的音视导航

本研究介绍了一种复杂的，声音和视觉逼真的三维环境中的音频视觉导航方法，使用多模态深度强化学习方法训练导航策略并提出了新的数据集 SoundSpaces，在现实环境中插入任意声源。研究结果表明，在三维空间中，音频对于具身视觉导航有很大的帮助，为音频视觉感知的体验机器人研究奠定了基础。

Dec, 2019

SoundSpaces 2.0: 一个视听学习仿真平台

SoundSpaces 2.0 是一个用于 3D 环境的实时几何声音渲染平台，用于生成高度逼真的声学效果以支持多种音频和视觉研究任务，并可用于普及性研究。

Jun, 2022

跨模态生成模型视觉引导下的双耳立体声生成

通过使用视觉引导生成对抗方法，本论文第一次提出了从单声道音频生成双元立体音频的方法，并且引入了一个测量音频空间感知的度量标准，通过定量和定向的方式评估音频的空间感知，在 2 个数据集和 5 个评价指标上实现了最先进的性能。定性实验和用户研究证明了该方法生成的空间逼真的立体音频。

Nov, 2023

利用部分监督的视听一致性生成空间音频

该研究提出了一种音频空间化框架，利用音频和视觉组件之间的关系将单通道视频转换为双耳音频，通过在音频和视觉模态中保留左右一致性的学习策略来实现自监督学习，验证结果表明该框架在半监督和全监督方案中具有很好的效果。

May, 2021

音频视觉空间融合与递归注意力的稳健声源定位

提出了一种音频 - 视觉空间整合网络，利用音频和视觉模态的空间线索来模仿人类在检测制造声音的对象时的行为，并引入了递归注意网络来递归地专注于对象，从而形成更准确的注意区域，通过利用音频 - 视觉模态的空间线索和递归地关注对象，我们的方法可以实现更稳健的声源定位，全面的实验结果表明了该方法优于现有方法。

Aug, 2023

双耳声音的语义物体预测和空间声音超分辨率

本文介绍了一种基于双耳声音的声音制造对象的语义标记方法，利用跨模态蒸馏框架让视觉和听觉系统相互学习，形成多任务训练网络等手段提高系统的性能。

Mar, 2020

声音引导下的语义视频生成

本文提出了一种利用多模态（声音 - 图像 - 文本）嵌入空间生成逼真视频的框架，通过将声音和 StyleGAN 潜空间相结合生成一个语义上和声音一致的视频，并且在视频质量和编辑方面超过了现有的最先进方法。

Apr, 2022

音频到视觉潜在对齐的声音转视觉场景生成

本文提出了一种通过声音生成场景图像的方法，采用了深度学习等技术，结合声音定位和跨模态信息对齐来提高图像生成质量，并在相关数据集上得到了较好结果。

Mar, 2023

左右分辨：学习视听的空间对应关系

使用自监督学习的方法，提出在音频流和视觉流中，通过匹配空间信息识别声源位置，通过实验得到能够有效训练的模型并通过大规模视频数据集 YouTube-ASMR-300K 进行评估，在音视频任务中得到比监督学习和其他自监督方法更高的性能，并证明了在球面导向视屏中拓展我们的自监督方法。

Jun, 2020