Jun, 2014

VideoSET:通过文本对视频摘要进行评估

TL;DR本文提出 VideoSET,一种通过文本评估视频摘要的方法,该方法可以评估视频摘要能否保留其原始视频中包含的语义信息。我们观察到语义最容易用文字来表达,因此开发了一种基于文本的评估方法。通过生成视频摘要的文本表示,然后使用基于 NLP 的度量方法来测量其与人类编写的基准文本摘要的语义距离。我们展示了我们的技术与基于像素距离的度量方法相比具有更高的人类判断一致性。我们还发布了一些公开可用的视频数据集的文本注释和基准文本摘要,供计算机视觉社区使用。