Jul, 2023

UniBriVL:音频驱动扩散模型的稳健通用表示和生成

TL;DR我们提出了一种名为 UniBriVL 的新型通用语言表征学习方法,该方法基于图像和语言的桥接,将音频、图像和文本嵌入到共享空间中,实现各种多模态应用。该方法解决了语言(文本和音频)表征学习中的主要挑战,并有效捕捉了音频和图像之间的相关性,同时通过定性评估展示了从音频生成的图像的潜力。UniBriVL 在下游任务中的实验结果表明了其有效性以及从音频中选择适当图像的能力,该方法具有语音识别、音乐信号处理和字幕系统等各种应用潜力。