Jul, 2023

文本到视频人物检索与一个新基准

TL;DR本研究提出了一种新的任务称为 Text-to-Video Person Retrieval (TVPR),并构建了一个包含自然语言注释的大规模跨模态人员视频数据集 (TVPReid),利用 Bert 获取字幕表示并研究字幕与视频表示之间的关系以揭示最相关的个人视频,并基于融合视觉和运动表示为基础进行视频表示,并提出了一个 TVPR 网络来解决人员在孤立帧中模糊或遗漏变量运动细节的挑战,获得了 TVPRN 在 TVPReid 数据集上的最佳性能表现。