Nov, 2023

Chat-UniVi:统一视觉表示赋予大型语言模型图像和视频理解能力

TL;DRChat-UniVi 是一个统一的视觉 - 语言模型,能够理解和参与涉及图像和视频的对话,并通过一种统一的视觉表示来实现。该模型利用一组动态视觉令牌来统一表示图像和视频,同时具备捕捉图像的空间细节和视频的全面时间关系所需的能力。Chat-UniVi 在包含图像和视频的混合数据集上进行训练,无需任何修改即可直接应用于涉及两种介质的任务,并在广泛的实验结果中一直优于专门设计用于图像或视频的现有方法。