Mar, 2024

VURF:视频理解的通用推理与自我完善框架

TL;DR本研究介绍了一种基于大型语言模型的视频理解和推理框架,通过利用其背景学习能力生成可执行的视觉程序,从而提高视觉编程方法在视频任务中的性能。