Jul, 2021

HANet: 视频文本检索的分层对齐网络

TL;DR本文提出了一种Hierarchical Alignment Network框架,通过把视频和文本分解成三个层次,即事件-动作-实体水平,并在个体-局部-全局层次上构建层次表示,捕捉视频和文本之间的从精细到粗略的对应关系,从而最大化利用三个语义层次的互补信息,以实现视频文本检索和匹配任务的高效和精度。实验结果表明,所提出的框架在两个公共数据集上优于其他最先进的方法,证明了层次表示和匹配的有效性。