Jan, 2024
多模态新闻理解与专业标注视频
Multi-modal News Understanding with Professionally Labelled Videos (ReutersViLNews)
Shih-Han Chou, Matthew Kowal, Yasmin Niknam, Diana Moyano, Shayaan Mehdi...
TL;DR通过对 ReutersViLNews 数据集进行大规模分析,我们发现新闻导向的视频对当前视频语言理解算法构成了重大挑战,并提供了未来解决 ReutersViLNews 数据集的方法。