CVPRMar, 2023

分层视频时刻检索和分步标题

TL;DR本研究介绍了 HiREST 数据集和基准测试,涵盖了从以下视频语料库中检索单元(瞬间)并分层检索高亮步骤的任务。HiREST 包括来自教学视频数据集的 3.4K 个文本视频对,其中 1.1K 个视频具有与文本查询相关的瞬间跨度注释,并将每个瞬间的重点说明步骤与时间戳(总计 8.6K 个步骤说明)的分解。本研究还为我们的新基准测试提供了一个起点任务特定的和端到端的联合基线模型。虽然基线模型显示出了一些有希望的结果,但仍然存在大量改进空间。