May, 2023
AudioToken:基于文本条件扩散模型的音频到图像生成适应性
AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation
Guy Yariv, Itai Gat, Lior Wolf, Yossi Adi, Idan Schwartz
TL;DR本论文提出了一种新方法,利用文本 - 图像生成中训练的潜在扩散模型,生成基于音频记录的图像。该方法使用预训练的音频编码模型将音频编码成新令牌,这可以被视为音频和文本表示之间的自适应层。结果表明,相较于基准方法,该方法在客观和主观度量方面表现优异。