声音之图像:将图像和声音合成于单一画布上
该论文提出了一种将声音直接编码成多模态(图像 - 文本)嵌入空间并从该空间中操纵图像的框架,该方法使用音频编码器从音频输入中生成潜在的表示,并基于对齐的嵌入使用直接潜在优化方法进行声音引导的图像操纵,实验证明该方法在零样本音频分类和语义级图像分类上优于其他文本和声音引导的最新方法。
Nov, 2021
本文提出了一种通过声音生成场景图像的方法,采用了深度学习等技术,结合声音定位和跨模态信息对齐来提高图像生成质量,并在相关数据集上得到了较好结果。
Mar, 2023
通过使用生成对抗网络、谱范数、投影判别器和辅助分类器等技术,我们的模型可以更好地生成声音相关的图像,这表明我们的模型在一定程度上真正了解声音和图像之间的关系。
Aug, 2018
该研究旨在利用基于学习的方法生成视频图像相应的声音,以此实现虚拟现实应用或为盲人提供图像的辅助访问。该研究表明,分别利用视觉图像作为输入,生成的声音是相当真实的,并且与视觉输入具有良好的时间同步性。
Dec, 2017
使用类似于艺术风格转移的方法,从随机噪声输入信号开始迭代地使用反向传播来优化声音以符合感兴趣的预训练神经架构的筛选器输出,实现了新声音的创造,展示了两种不同的任务,达到了带宽扩展 / 压缩和从歌声到乐器的音色转移。该方法的特点是,使用相同的参数集合,单个架构可以生成这些不同的音频风格转移类型,而不需要不同的复杂手动调整的信号处理管道
Jan, 2018
本文介绍了利用神经合成器实时生成任意乐器和音符组合的音频,其具有互动性和表现力,使用 MIDI 序列进行训练,采用两阶段过程转换为声谱图,然后通过生成对抗网络(GAN)声谱图反演器将其转化为音频,发现 DDPM 方法在质量和重建等方面具有显著的优势。
Jun, 2022
我们的研究主要关注声音景观映射的任务,利用先进的模型对地理位置的语音、语音的文本描述以及其拍摄地的航拍图像进行编码,构建了三种模态的共享嵌入空间,从而可以根据文本或音频查询构建任何地理区域的声音景观地图。在 SoundingEarth 数据集上,我们的方法明显优于现有最先进方法,在图像到音频的召回率改善了从 0.256 提高到 0.450。我们的代码可在此链接中找到。
Sep, 2023
通过 SEE-2-SOUND 引入的零样本方法,将多模式内容生成、神经生成模型和空间音频相结合,可以为高质量视频、图像和互联网动态图像生成空间音频,实现沉浸式体验。
Jun, 2024
本文在视觉诱发音频生成方面进行了研究,提出了一种单一模型,可以在比单个 GPU 播放时间更短的时间内生成高保真、与视觉相符的声音,并使用新型的 FID 和 MKL 度量标准对其进行了评估。
Oct, 2021