Dec, 2020
自然语言配合的多尺度2D时间相邻网络用于时刻定位
Multi-Scale 2D Temporal Adjacent Networks for Moment Localization with
Natural Language
TL;DR本论文提出了一种基于 Multi-Scale Temporal Adjacent Network (MS-2D-TAN) 的单次框架,通过一组预定义的二维地图在不同的时间尺度下建模视频时序的上下文信息,以实现从未修剪的视频中通过自然语言检索到特定时刻的目标。