Dec, 2023

基于大语言模型的视频理解研究综述

TL;DR通过综述表明,利用大型语言模型(LLMs)的能力,视频理解工具的发展具有巨大的潜力,并且在空间时间推理和通识知识方面表现出令人惊讶的优势,还展示了在各个领域中应用的强大可扩展性和多功能性。