EMNLPOct, 2023

ViPE:可视化几乎一切

TL;DR通过大规模的带有含糊视觉描述的歌词集合进行训练,ViPE 是一种轻量且强大的语言模型,能够将任意文本转化为可视化描述,并展示出对比人类专家更具鲁棒性的理解能力,为音乐视频和字幕生成等许多下游应用提供了强大的开源基础。