跨模态生成模型视觉引导下的双耳立体声生成

Nov, 2023

跨模态生成模型视觉引导下的双耳立体声生成

Cross-modal Generative Model for Visual-Guided Binaural Stereo Generation

Zhaojian Li, Bin Zhao, Yuan Yuan

TL;DR通过使用视觉引导生成对抗方法，本论文第一次提出了从单声道音频生成双元立体音频的方法，并且引入了一个测量音频空间感知的度量标准，通过定量和定向的方式评估音频的空间感知，在 2 个数据集和 5 个评价指标上实现了最先进的性能。定性实验和用户研究证明了该方法生成的空间逼真的立体音频。

Abstract

binaural stereo audio is recorded by imitating the way the human ear receives sound, which provides people with an immersive listening experience. Existing approaches leverage autoencoders and directly exploit visual spatial information to synthesize binaural stereo, resulting in a lim

binaural stereo audio visually guided generative adversarial shared spatio-temporal visual information stereo spatial perception state-of-the-art performance

发现论文，激发创造

利用部分监督的视听一致性生成空间音频

该研究提出了一种音频空间化框架，利用音频和视觉组件之间的关系将单通道视频转换为双耳音频，通过在音频和视觉模态中保留左右一致性的学习策略来实现自监督学习，验证结果表明该框架在半监督和全监督方案中具有很好的效果。

May, 2021

无需双耳音频的视觉辅助双耳音频生成

本文提出了一种无需立体声录音的有效 PseudoBinaural 管道，通过手动放置声音源位置的相应视觉线索形成假的视觉立体对来训练模型，同时利用头部相关冲击响应（HRIR）对空间位置和接收到的立体声音频之间的关系进行建模，实现了在实际场景下的准确音频生成，并能在有监督设置下进一步改善性能。

Apr, 2021

Sep-Stereo: 基于可视化引导的立体声音频生成方法，通过关联源分离

该研究提出了一种统一的框架，将立体声音频生成和源分离相结合，通过使用可用的单声道数据来提高立体声音频生成的结果。

Jul, 2020

深度跨模态音视频生成

本研究通过利用深度生成对抗训练解决了跨模态音频 - 视觉生成的问题，使用条件生成对抗网络实现了音乐表演的跨模态音频 - 视觉生成，并探索了音频和视觉信号的不同编码方法以及基于乐器和姿势的生成情景，并且进行了分类和人工评估实验，证明了该模型可以在很大程度上从一个模态（音频 / 视觉）生成另一个模态（视觉 / 音频），并提供了未来研究所需的数据集和设计选项。

Apr, 2017

SEE-2-SOUND：零射击空间环境到空间音效

通过 SEE-2-SOUND 引入的零样本方法，将多模式内容生成、神经生成模型和空间音频相结合，可以为高质量视频、图像和互联网动态图像生成空间音频，实现沉浸式体验。

Jun, 2024

声音引导下的语义视频生成

本文提出了一种利用多模态（声音 - 图像 - 文本）嵌入空间生成逼真视频的框架，通过将声音和 StyleGAN 潜空间相结合生成一个语义上和声音一致的视频，并且在视频质量和编辑方面超过了现有的最先进方法。

Apr, 2022

2.5D 视觉声音

该研究提出了一种利用视频将常见的单通道音频转换为双耳音频的深度卷积神经网络方法，称为 2.5D 视听效果，可以产生具有空间感的音频，同时有助于音频 - 视觉源分离。

Dec, 2018

双耳声音的语义物体预测和空间声音超分辨率

本文介绍了一种基于双耳声音的声音制造对象的语义标记方法，利用跨模态蒸馏框架让视觉和听觉系统相互学习，形成多任务训练网络等手段提高系统的性能。

Mar, 2020

声音引导的语义图像操作

该论文提出了一种将声音直接编码成多模态（图像 - 文本）嵌入空间并从该空间中操纵图像的框架，该方法使用音频编码器从音频输入中生成潜在的表示，并基于对齐的嵌入使用直接潜在优化方法进行声音引导的图像操纵，实验证明该方法在零样本音频分类和语义级图像分类上优于其他文本和声音引导的最新方法。

Nov, 2021

层次交叉感知的深度融合双耳声音生成

该研究旨在提高在手持设备上录制立体声音频的难度，通过借助深度图像等特征来实现对距离信息的编码，从而改善其在 AR/VR 等环境下的表现。

Aug, 2021