声音之图像：将图像和声音合成于单一画布上

使用类似于艺术风格转移的方法，从随机噪声输入信号开始迭代地使用反向传播来优化声音以符合感兴趣的预训练神经架构的筛选器输出，实现了新声音的创造，展示了两种不同的任务，达到了带宽扩展 / 压缩和从歌声到乐器的音色转移。该方法的特点是，使用相同的参数集合，单个架构可以生成这些不同的音频风格转移类型，而不需要不同的复杂手动调整的信号处理管道

Jan, 2018

基于频谱扩散的多乐器音乐合成

本文介绍了利用神经合成器实时生成任意乐器和音符组合的音频，其具有互动性和表现力，使用 MIDI 序列进行训练，采用两阶段过程转换为声谱图，然后通过生成对抗网络（GAN）声谱图反演器将其转化为音频，发现 DDPM 方法在质量和重建等方面具有显著的优势。

Jun, 2022

学习三模态嵌入用于零样本声景映射

我们的研究主要关注声音景观映射的任务，利用先进的模型对地理位置的语音、语音的文本描述以及其拍摄地的航拍图像进行编码，构建了三种模态的共享嵌入空间，从而可以根据文本或音频查询构建任何地理区域的声音景观地图。在 SoundingEarth 数据集上，我们的方法明显优于现有最先进方法，在图像到音频的召回率改善了从 0.256 提高到 0.450。我们的代码可在此链接中找到。

Sep, 2023

SEE-2-SOUND：零射击空间环境到空间音效

通过 SEE-2-SOUND 引入的零样本方法，将多模式内容生成、神经生成模型和空间音频相结合，可以为高质量视频、图像和互联网动态图像生成空间音频，实现沉浸式体验。

Jun, 2024

控制视觉引导的声音生成

本文在视觉诱发音频生成方面进行了研究，提出了一种单一模型，可以在比单个 GPU 播放时间更短的时间内生成高保真、与视觉相符的声音，并使用新型的 FID 和 MKL 度量标准对其进行了评估。

Oct, 2021