音频到视觉潜在对齐的声音转视觉场景生成

CVPRMar, 2023

音频到视觉潜在对齐的声音转视觉场景生成

Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment

Kim Sung-Bin, Arda Senocak, Hyunwoo Ha, Andrew Owens, Tae-Hyun Oh

TL;DR本文提出了一种通过声音生成场景图像的方法，采用了深度学习等技术，结合声音定位和跨模态信息对齐来提高图像生成质量，并在相关数据集上得到了较好结果。

Abstract

How does audio describe the world around us? In this paper, we propose a method for generating an image of a scene from sound. Our method addresses the challenges of dealing with the large gaps that often exist between sight and sound. We design a model that works by scheduling the lea

audio image generation sound localization cross-modal correlation deep learning

发现论文，激发创造

声音引导下的语义视频生成

本文提出了一种利用多模态（声音 - 图像 - 文本）嵌入空间生成逼真视频的框架，通过将声音和 StyleGAN 潜空间相结合生成一个语义上和声音一致的视频，并且在视频质量和编辑方面超过了现有的最先进方法。

Apr, 2022

视听结合：基于扩散潜在对齐器的开放领域视听生成

本研究提出了一个基于优化的跨视觉 - 音频和联合视觉 - 音频生成框架，通过与预训练的 ImageBind 模型共享潜在表示空间，实现了优越的联合视频 - 音频生成、视觉导向音频生成和音频导向视觉生成任务的性能。

Feb, 2024

声音引导的语义图像操作

该论文提出了一种将声音直接编码成多模态（图像 - 文本）嵌入空间并从该空间中操纵图像的框架，该方法使用音频编码器从音频输入中生成潜在的表示，并基于对齐的嵌入使用直接潜在优化方法进行声音引导的图像操纵，实验证明该方法在零样本音频分类和语义级图像分类上优于其他文本和声音引导的最新方法。

Nov, 2021

野外音视频同步

本研究提出基于 transformer 的架构和度量标准用于评估各种类别下的音频 - 视频同步，并使用新的 VGG-Sound Sync 数据集测试。结果表明，我们的模型优于先前的最先进技术。

Dec, 2021

课程视听学习

本文提出了一种灵活的音视频模型，通过软聚类模块作为音频和视频内容检测器，并将音视频并发的普遍属性视为推断检测内容之间相关性的潜在监督，并提出一种新颖的课程学习策略，从简单到复杂的场景训练模型，以缓解音视频学习的困难。同时，本文的音视频模型还可提供有效的单模态表示和跨模态对齐性能，进一步将训练好的模型部署到实际音视频定位和分离任务中，并显示其定位模型明显优于现有方法，基于此，我们在音频分离方面的性能也表现出色，而不需要参考外部视觉监督。

Jan, 2020

学习在视觉场景中定位声源

本文提出一种新颖的无监督学习算法，可以通过观察声音和视觉场景对来仅仅聚焦声音源，在仅仅几个监督的情况下可以有效地纠正错误的结论并定位声音源.

Mar, 2018

通过文本到视频模型的调整实现多样和一致的音视频生成

生成多样化和逼真的视频，根据语义类别广泛的自然音频样本进行引导。采用了基于轻量级适配器网络的方法，将音频基础表示映射到文本 - 视频生成模型所期望的输入表示，实现了对文本、音频以及文本和音频的生成视频。在三个数据集上验证了该方法，展示了生成的音频视频样本的显著语义多样性，并提出了一种新的评估度量（AV-Align）以评估生成视频与输入音频样本的对齐性。与最新的先进方法相比，我们的方法生成的视频在内容和时间轴上都与输入音频更好地对齐，并且呈现更高的视觉质量和多样性。

Sep, 2023

深度跨模态音视频生成

本研究通过利用深度生成对抗训练解决了跨模态音频 - 视觉生成的问题，使用条件生成对抗网络实现了音乐表演的跨模态音频 - 视觉生成，并探索了音频和视觉信号的不同编码方法以及基于乐器和姿势的生成情景，并且进行了分类和人工评估实验，证明了该模型可以在很大程度上从一个模态（音频 / 视觉）生成另一个模态（视觉 / 音频），并提供了未来研究所需的数据集和设计选项。

Apr, 2017

学习在视觉场景中定位声源：分析与应用

本项研究提出一种基于双流网络的无监督算法，用于在视觉场景中定位声源，并针对该算法所存在的误差问题通过半监督学习进行修正，从而增强了算法的可靠性和泛化性。

Nov, 2019

视听呼应

本研究提出了一种使用交叉模态转换模型的视听匹配任务，该模型使用音频 - 视觉注意力将视觉特性注入音频，以生成逼真的音频输出，并使用自我监督训练目标从 “野外” Web 视频中学习声学匹配，以便将人类语音成功转换为多种实际环境，在实验中证明该方法比传统的声学匹配和更严格的监督基线都效果好。

Feb, 2022