Dec, 2023

LifelongMemory: 利用LLM为参照视频中的问题提供答案

TL;DR通过使用多个预训练模型从广泛的自我中心视频内容中回答查询,本研究引入了LifelongMemory,这是一种利用大型语言模型和视觉语言模型的新框架,以解决在复杂的视觉语言任务中捕捉长距离时间依赖关系的问题。