ICCVApr, 2020

视频排序的深度多模态特征编码

TL;DR通过对视频的各种形式进行联合分析(包括视频帧、音频和任何附带文本),我们提出了一种学习紧凑的多模态特征表示形式的方法,证明了多模态表示是互补的,可以在提高许多应用性能中发挥关键作用。