Dec, 2023

面向主题的视频字幕生成

TL;DR通过对用户兴趣的主题进行视频描述一直是一个长期目标。为了解决这个问题,我们提出了一种新的视频字幕任务,即面向主题的视频字幕,允许用户通过边界框指定描述的目标。为了支持这个任务,我们基于两个广泛使用的视频字幕数据集 MSVD 和 MSRVTT 构建了两个面向主题的视频字幕数据集,通过为每个字幕中的每个视频注释主题。这些数据集为未来的技术发展铺平了道路。作为第一个尝试,我们评估了四种最先进的通用视频字幕模型,并观察到了较大的性能下降。然后,我们探索了几种策略使它们能够描述所需的目标。实验结果显示出明显的改进,但在这个领域还有很大的探索空间。