Nov, 2021

声音引导的语义图像操作

TL;DR该论文提出了一种将声音直接编码成多模态(图像 - 文本)嵌入空间并从该空间中操纵图像的框架,该方法使用音频编码器从音频输入中生成潜在的表示,并基于对齐的嵌入使用直接潜在优化方法进行声音引导的图像操纵,实验证明该方法在零样本音频分类和语义级图像分类上优于其他文本和声音引导的最新方法。