Jun, 2023

增强型大语言模型视频助理

TL;DR本文旨在开发一个新颖的多模态基础模型 ——Valley: Video Assistant with Large Language model Enhanced ability,实现对视频、图像和语言的感知,并通过 ChatGPT 设计的多任务指令追随视频数据,在人类和视频之间进行各种任务定向的对话,为多语言的视频助手提供高度有效的支持。