Mar, 2023
VideoXum: 视频的跨模态视觉和文本摘要
VideoXum: Cross-modal Visual and Textural Summarization of Videos
TL;DR我们提出了一个新的联合视频和文本摘要任务,旨在生成一个缩短的视频剪辑和相应的文本摘要,我们通过构建一个大规模的人类注释数据集-VideXum来解决此问题,并使用新的度量标准VT-CLIPScore来评估跨模态摘要的语义一致性。我们提出的VTSUM-BILP模型在此任务上取得了有希望的性能,并为未来研究建立了基准。