Nov, 2024

基于视频的带定位字幕生成

TL;DR本文提出了一种新的任务、数据集和模型,用于基于视频的带定位字幕生成,旨在将字幕与视频中的物体进行关联。我们引入了一种大规模的自动注释方法,并介绍了新的模型VideoGround,此模型在新的HowToGround数据集上进行训练,最终在该任务中设置了最新的技术标准。此研究的成果将在视频理解和生成领域产生重要影响。