从文本和视频中生成声音

Jul, 2024

Read, Watch and Scream! Sound Generation from Text and Video

Yujin Jeong, Yunji Kim, Sanghyuk Chun, Jiyoung Lee

TL;DR提出了一种名为ReWaS的新型视频和文本生成声音的方法，通过视频作为文本到音频生成模型的条件控制，从视频中估计音频的结构信息（即能量），同时从用户提示中接收关键内容线索。通过分离音频的生成组件，提供了一个更灵活的系统，允许用户根据其偏好自由调整能量、周围环境和主音源。实验结果证明了该方法在质量、可控性和训练效率方面的优越性。

Abstract

multimodal generative models have shown impressive advances with the help of powerful diffusion models. Despite the progress, generating sound solely from text poses challenges in ensuring comprehensive scene depiction and temporal alignment. Meanwhile, video-to-sound generation limits

发现论文，激发创造

声音引导下的语义视频生成

本文提出了一种利用多模态（声音-图像-文本）嵌入空间生成逼真视频的框架，通过将声音和StyleGAN潜空间相结合生成一个语义上和声音一致的视频，并且在视频质量和编辑方面超过了现有的最先进方法。

Apr, 2022

Diffsound: 文本生成音效的离散扩散模型

本研究提出了一种基于非自回归解码器、矢量量化变分自编码器、谱图及声码器的文本到声音生成框架，在声音生成效果和速度方面较传统的自回归解码器都有较大的提升。

Jul, 2022

AudioGen: 基于文本指导的音频生成

本文提出了一种基于文本输入生成音频的生成模型，使用数据增强技术和多流建模来减轻音频生成中的诸多挑战，包括文本注释的稀缺性、高保真音频编码和多个音频源的难以分辨等，并实现了比其他基准模型更好的音频生成效果。

Sep, 2022

对齐，自适应和注入：音频引导的统一图像生成

本文提出了一个统一框架——Align, Adapt, and Inject (AAI)，用于基于声音进行图像生成、编辑和风格化。其方法将输入的声音转换成一个声音令牌，并利用现有强大的扩散式T2I模型，从而实现了方便而经济的声音引导的图像生成、编辑和风格化。实验表明，AAI方法优于其他最先进的文本和声音引导方法。

Jun, 2023

声音的力量：稳定扩散下的音频反应视频生成

通过使用包含变化的时间语义和大小的音频输入的The Power of Sound (TPoS)模型结合文本语义信息和经过预训练的音频编码器的顺序音频嵌入，TPoS方法能够生成对音频有反应的视频内容，并在各个任务中展示了其有效性，与当前音频到视频生成领域的最新技术进行了比较。

Sep, 2023

通过文本到视频模型的调整实现多样和一致的音视频生成

生成多样化和逼真的视频，根据语义类别广泛的自然音频样本进行引导。采用了基于轻量级适配器网络的方法，将音频基础表示映射到文本-视频生成模型所期望的输入表示，实现了对文本、音频以及文本和音频的生成视频。在三个数据集上验证了该方法，展示了生成的音频视频样本的显著语义多样性，并提出了一种新的评估度量（AV-Align）以评估生成视频与输入音频样本的对齐性。与最新的先进方法相比，我们的方法生成的视频在内容和时间轴上都与输入音频更好地对齐，并且呈现更高的视觉质量和多样性。

Sep, 2023

Audiobox: 统一音频生成的自然语言触发器

Audiobox是一种基于流匹配的统一模型，通过描述和示例的提示来增强可控性，统一了语音和声音生成范式，并通过使用Bespoke Solvers提高生成速度。

Dec, 2023

视听结合：基于扩散潜在对齐器的开放领域视听生成

本研究提出了一个基于优化的跨视觉-音频和联合视觉-音频生成框架，通过与预训练的ImageBind模型共享潜在表示空间，实现了优越的联合视频-音频生成、视觉导向音频生成和音频导向视觉生成任务的性能。

Feb, 2024

Tango 2：通过直接偏好优化对齐基于扩散的文本到音频生成

研究使用diffusion-DPO（直接偏好优化）损失在偏好数据集上对Tango文本到音频模型进行微调，以改进音频生成性能，并且在自动和手动评估指标上显示出优于Tango和AudioLDM2的效果。

Apr, 2024

SoundCTM: 合并基于分数和一致性模型的文本到声音生成

我们介绍了声音一致性轨迹模型（SoundCTM），该模型通过多步骤生成实现了高质量的一步骤和多步骤实时声音生成，并在训练中利用教师网络的特征距离进行了创新。

May, 2024