MMJul, 2021

HANet: 视频文本检索的分层对齐网络

TL;DR本文提出了一种 Hierarchical Alignment Network 框架,通过把视频和文本分解成三个层次,即事件 - 动作 - 实体水平,并在个体 - 局部 - 全局层次上构建层次表示,捕捉视频和文本之间的从精细到粗略的对应关系,从而最大化利用三个语义层次的互补信息,以实现视频文本检索和匹配任务的高效和精度。实验结果表明,所提出的框架在两个公共数据集上优于其他最先进的方法,证明了层次表示和匹配的有效性。