Jun, 2023

Video-LLaMA: 一种面向视频理解的指令优化的音视频语言模型

TL;DRVideo-LLaMA 是一种多模态框架,通过将预训练的视觉和音频编码器与预训练的大型语言模型结合,实现对视频内容的理解,具有捕捉视觉场景中的时间变化和整合音频 - 视觉信号等优势,因此被视为具有潜力的音视频 AI 助手原型。