AudioToken：基于文本条件扩散模型的音频到图像生成适应性

May, 2023

AudioToken：基于文本条件扩散模型的音频到图像生成适应性

AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation

Guy Yariv, Itai Gat, Lior Wolf, Yossi Adi, Idan Schwartz

TL;DR本论文提出了一种新方法，利用文本 - 图像生成中训练的潜在扩散模型，生成基于音频记录的图像。该方法使用预训练的音频编码模型将音频编码成新令牌，这可以被视为音频和文本表示之间的自适应层。结果表明，相较于基准方法，该方法在客观和主观度量方面表现优异。

Abstract

In recent years, image generation has shown a great leap in performance, where diffusion models play a central role. Although generating high-quality images, such models are mainly conditioned on textual descript

image generation diffusion models text-to-image generation audio conditioning latent modeling

发现论文，激发创造

音频驱动的预训练扩散模型生成与编辑

我们提出了一种能够在大规模图像扩散模型中实现音频条件的方法，通过将从音频剪辑中获取的特征映射到可以注入扩散模型的令牌中，引入了额外的音频 - 图像交叉注意力层，可以与扩散编辑方法相结合进行音频条件的图像编辑。

May, 2024

ArchiSound: 漫射生成音频

该论文研究了扩散模型在音频生成方面的应用，提出了多种模型来满足音频生成的多方面需求，并通过简化工具库加速实时推理。

Jan, 2023

多条件扩散模型的音频生成

我们提出了一种新的模型，通过包含额外条件（时间戳、语调曲线和能量曲线）作为文本的补充，增强了现有预训练文本转音频模型的可控性，实现了对生成音频的时间顺序、音高和能量的精细控制。通过使用可训练的控制条件编码器和可训练的融合网络，在保持预训练文本转音频模型权重不变的同时，将额外条件编码和融合。由于缺乏合适的数据集和评估指标，我们将现有数据集整合成一个包含音频和相应条件的新数据集，并使用一系列评估指标来评估可控性能。实验结果表明，我们的模型成功实现了细粒度控制，实现了可控的音频生成。音频样本和我们的数据集可在此 https URL 获取。

Aug, 2023

生成 AI 中的文本与图像扩散模型：一项调查

本文综述了文本到图像扩散模型的发展现状及其在生成任务中的应用；此外，介绍了文本条件下图像合成、文本引导的创意生成和图像编辑，并探讨了当前的挑战和未来方向。

Mar, 2023

基于潜在扩散模型的文本驱动 Foley 声音生成

本研究提出了一种基于扩散模型的 Foley 声音生成系统，该系统使用文本条件进行预测。通过使用 CLAP 技术的迁移学习，将该模型初始化地进行了预训练，以缓解数据不足问题。实验结果表明，该方法显着提高了声音生成性能，使得该系统在 DCASE Challenge 2023 任务 7 中排名第一。

Jun, 2023

基于无条件扩散模型的实时文本驱动图像操作

该论文研究了基于扩散模型的无条件文本驱动图像编辑方法的效率，并开发了一种新算法，可以快速学习和应用图像操作，从而提高实现应用的潜力。

Apr, 2023

AADiff: 音频对齐视频生成与文本到图像扩散

本文介绍了一种新的 T2V 框架，通过引入音频信号来控制时间动态，从而使传统的 T2I 扩散生成可以与音频对齐的视频。我们提出了基于音频的区域编辑和信号平滑方法，以在视频综合的时间灵活性和一致性之间取得良好平衡，并通过实验验证了方法的有效性，并提出了实际应用。

May, 2023

语言生成的潜在扩散

该研究论文讨论了扩散模型在离散领域（如语言）的应用，提出将扩散模型作为基于预训练语言模型的生成算法的辅助方法，并通过在预训练的编码器 - 解码器模型的潜在空间中学习连续的潜在扩散模型，演示了其在从数据分布中生成文本方面的有效性。最终提出的潜在扩散模型不仅在生成新颖文本方面优于强有力的自回归基线，还支持可控的生成。

Dec, 2022

使用未标记的视频和预训练语言 - 视觉模型进行文本 - 音频合成的 CLIPSonic

利用预训练模型和未标注视频数据，本研究提出了一个新的方法来实现从文本到音频的合成。研究使用频繁出现的视听对应来克服高质量文本标注存在的难点，并通过传输模式来进一步提升性能。

Jun, 2023

使用指令调整的 LLM 和潜在扩散模型生成文本到语音

本研究采用基于指令调整的大型语言模型 Flan-T5 作为文本编码器，通过使用基于声音压力级的声音混合来进行训练集增强，从而取得了比 AudioLDM 更好的结果，成为了生成文字描述音频的任务中的最佳选择。

Apr, 2023