AAAIApr, 2018

多层次语言和视觉融合的文本到视频检索

TL;DR本文提出了一种多层级的模型,早期并更紧密地集成了视觉和语言特性,用于解决从未剪辑的视频中基于文本的活动检索问题,其中包括注入文本特性以加速处理和提高性能,以及利用视觉特征在循环神经网络中模拟查询句子的单词级处理以学习细粒度的相似性度量,同时采用多任务损失函数。该方法在 Charades-STA 和 ActivityNet Captions 两个具有挑战性的基准测试中表现出较高效果。