Oct, 2019

面向音视频零样本分类和检索的联合多模态嵌入

TL;DR本文提出了一种基于视听多模态的零样本学习(ZSL)方法,针对视频进行分类和检索。作者证明了视听模态均对视频的ZSL非常重要,提出了一个利用已有大规模音频事件数据集构建的视听多模态数据集,并通过嵌入学习方法实现零样本分类和检索任务中加入音频模态的性能提升,并提出了一种新的方法来预测'主导'模态,从而证明了该视听多模态方法在未知测试类中仍具有推广能力。