May, 2023
VideoLLM: 用大型语言模型对视频序列建模
VideoLLM: Modeling Video Sequence with Large Language Models
TL;DR本文提出了一种名为VideoLLM的新框架,它利用了自然语言处理(NLP)预训练LLMs的序列推理能力来进行视频序列理解。通过精心设计的模态编码器和语义转换器,将不同来源的输入转换为统一的标记序列,然后将其馈入仅解码的LLM中。在实验中,作者评估了VideoLLM在多个任务上的表现,证明了LLMs的理解和推理能力可以有效地转移到视频理解任务中。