Mar, 2024

Elysium:透过 MLLM 探索视频中的物体层次感知

TL;DR通过在大型视频数据集上进行大规模预训练,我们提出了一种全新的多模态大型语言模型(MLLM),名为 Elysium,该模型可以在视频中进行物体级任务,而无需任何其他插件或专家模型。