Jan, 2024

多模态新闻理解与专业标注视频

TL;DR通过对 ReutersViLNews 数据集进行大规模分析,我们发现新闻导向的视频对当前视频语言理解算法构成了重大挑战,并提供了未来解决 ReutersViLNews 数据集的方法。