May, 2023

VideoLLM: 用大型语言模型对视频序列建模

TL;DR本文提出了一种名为 VideoLLM 的新框架,它利用了自然语言处理(NLP)预训练 LLMs 的序列推理能力来进行视频序列理解。通过精心设计的模态编码器和语义转换器,将不同来源的输入转换为统一的标记序列,然后将其馈入仅解码的 LLM 中。在实验中,作者评估了 VideoLLM 在多个任务上的表现,证明了 LLMs 的理解和推理能力可以有效地转移到视频理解任务中。