Nov, 2020

视频语料库中的时刻定位层级多模态编码器

TL;DR本文提出了一种名为 HAMMER 的 HierArchical Multi-Modal EncodeR 模型,通过在粗略的片段级别和细粒度的帧级别编码视频,从多个子任务中提取不同尺度的信息,从而解决了在未处理和未分段的视频中定位未定义段的挑战。实验结果表明,我们的方法优于以前的方法和强基线,是此任务的新的 state-of-the-art。