ACLDec, 2021

通过视觉知识转移在无平行数据的情况下,连接音频和文本之间的关联

TL;DR提出了一种称为 VIP-ANT 的模型,实现了音频文本无对齐数据的自动对齐,应用在零 - shot 音频分类和字幕检索任务中取得了良好的性能,甚至超越了更传统的监督学习模型。同时也发现,虽然仅需一些监督数据就可以提高性能,但达到人类水平仍然需要更大规模的数据。