Mar, 2024
VURF:视频理解的通用推理与自我完善框架
VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding
Ahmad Mahmood, Ashmal Vayani, Muzammal Naseer, Salman Khan, Fahad Khan
TL;DR本研究介绍了一种基于大型语言模型的视频理解和推理框架,通过利用其背景学习能力生成可执行的视觉程序,从而提高视觉编程方法在视频任务中的性能。