Sep, 2024

鹰:自我中心聚合语言视频引擎

TL;DR本研究针对自我中心视频分析中的任务碎片化问题,提出了EAGLE模型和EAGLE-400K数据集,旨在提供一个统一的框架来整合多种视频理解任务。EAGLE是一个强大的多模态大语言模型,能够有效捕捉空间和时间信息,其在多个任务上的出色表现,展示了其在现实世界应用中的潜在价值。