Dec, 2023

视频摘要:朝向实体感知字幕

TL;DR在这篇论文中,我们提出了直接生成有实体感知能力的新闻视频标题的任务,并发布了一个大规模数据集VIEWS(VIdeo NEWS)以支持该任务的研究。同时,我们还提出了一种方法,通过从外部世界知识中检索到的上下文来增强视频中的视觉信息,以生成具有实体感知能力的标题。通过在三个视频字幕模型上的广泛实验和见解,我们证明了我们方法的有效性,并且展示了我们的方法能够推广到现有的新闻图像字幕数据集。相信我们为这一具有挑战性的任务奠定了坚实的研究基础。