Dec, 2020

自然语言配合的多尺度 2D 时间相邻网络用于时刻定位

TL;DR本论文提出了一种基于 Multi-Scale Temporal Adjacent Network (MS-2D-TAN) 的单次框架,通过一组预定义的二维地图在不同的时间尺度下建模视频时序的上下文信息,以实现从未修剪的视频中通过自然语言检索到特定时刻的目标。