Jun, 2024

阿尔忒弥斯:迈向复杂视频中的指代理解

TL;DR基于视频的指代理解一直是多模态大型语言模型的一个挑战,本文提出了 Artemis,一个将视频指代理解提升到更精细层次的模型。通过提取紧凑、目标特定的视频特征,Artemis 能够根据视频中的自然语言问题和感兴趣目标的边界框完成整个视频的描述。通过设计高效的三阶段训练过程,并在新建的 VideoRef45K 数据集上进行训练,实验结果从定量和定性上都显示出良好的性能。此外,实验还展示了该模型能够与视频对准和文本摘要工具集成,以理解更复杂的场景。