从视频中生成视觉对齐的音频

Jul, 2020

Generating Visually Aligned Sound from Videos

Peihao Chen, Yang Zhang, Mingkui Tan, Hongdong Xiao, Deng Huang...

TL;DR本文提出了一个名为 REGNET 的框架，利用外观和运动特征从视频帧中提取物体发出的声音，结合创新的音频转发正则化器进行更强的声音预测监督，在训练过程中使用了可控制影响因素的正则化器，并通过 Amazon Mechanical Turk 进行了大量评估，成功实现了音频和视频的时序和内容对齐。

Abstract

We focus on the task of generating sound from natural videos, and the sound should be both temporally and content-wise aligned with visual signals. This task is extremely challenging because some sounds generated \emph{outside} a camera can not be inferred from video content. The model

sound generation visual signals regnet audio forwarding regularizer temporal and content-wise alignment

发现论文，激发创造

音频到视觉潜在对齐的声音转视觉场景生成

本文提出了一种通过声音生成场景图像的方法，采用了深度学习等技术，结合声音定位和跨模态信息对齐来提高图像生成质量，并在相关数据集上得到了较好结果。

Mar, 2023

声音引导下的语义视频生成

本文提出了一种利用多模态（声音 - 图像 - 文本）嵌入空间生成逼真视频的框架，通过将声音和 StyleGAN 潜空间相结合生成一个语义上和声音一致的视频，并且在视频质量和编辑方面超过了现有的最先进方法。

Apr, 2022

Soundini: 用声音引导的扩散技术进行自然视频编辑

本研究提出了一种使用声音引导视觉效果的方法，通过在音频视觉潜在空间中使用音频潜在表示来引导去噪扩散概率模型，利用基于光流的指导生成时间一致的视频帧，生成更具有现实主义的视觉效果。

Apr, 2023

通过文本到视频模型的调整实现多样和一致的音视频生成

生成多样化和逼真的视频，根据语义类别广泛的自然音频样本进行引导。采用了基于轻量级适配器网络的方法，将音频基础表示映射到文本 - 视频生成模型所期望的输入表示，实现了对文本、音频以及文本和音频的生成视频。在三个数据集上验证了该方法，展示了生成的音频视频样本的显著语义多样性，并提出了一种新的评估度量（AV-Align）以评估生成视频与输入音频样本的对齐性。与最新的先进方法相比，我们的方法生成的视频在内容和时间轴上都与输入音频更好地对齐，并且呈现更高的视觉质量和多样性。

Sep, 2023

视觉到声音：在野外生成自然视频音频

该研究旨在利用基于学习的方法生成视频图像相应的声音，以此实现虚拟现实应用或为盲人提供图像的辅助访问。该研究表明，分别利用视觉图像作为输入，生成的声音是相当真实的，并且与视觉输入具有良好的时间同步性。

Dec, 2017

艰难的方式本地化视觉音效

本文主要讲述了如何通过训练神经网络来定位视频中可见的声源，采用对图像难样本强化学习的方法以提升定位精度。同时，作者还介绍了一个新的数据集 VGG-Sound Source benchmark，并展示了该算法在其上的最先进性能。

Apr, 2021

从野外声音生成逼真图像

通过音频字幕、音频注意力和扩散模型，本文提出了一种从野外音频生成高质量图像的新方法，并在野外音频数据集的定量和定性评估中优于基线模型。

Sep, 2023

视听结合：基于扩散潜在对齐器的开放领域视听生成

本研究提出了一个基于优化的跨视觉 - 音频和联合视觉 - 音频生成框架，通过与预训练的 ImageBind 模型共享潜在表示空间，实现了优越的联合视频 - 音频生成、视觉导向音频生成和音频导向视觉生成任务的性能。

Feb, 2024

Action2Sound: 环境感知的从自我为中心视频生成行动声音

提出了一种新颖的环境感知音频生成模型，用于根据视频内容生成符合语义和时间要求的音频；使用了特殊的音频条件机制，以在野外训练视频中学习将前景动作声音与环境背景声音解耦合。

Jun, 2024

野外音视频同步

本研究提出基于 transformer 的架构和度量标准用于评估各种类别下的音频 - 视频同步，并使用新的 VGG-Sound Sync 数据集测试。结果表明，我们的模型优于先前的最先进技术。

Dec, 2021