May, 2023

AudioToken:基于文本条件扩散模型的音频到图像生成适应性

TL;DR本论文提出了一种新方法,利用文本 - 图像生成中训练的潜在扩散模型,生成基于音频记录的图像。该方法使用预训练的音频编码模型将音频编码成新令牌,这可以被视为音频和文本表示之间的自适应层。结果表明,相较于基准方法,该方法在客观和主观度量方面表现优异。