基于 Vision-Language Models 的 VoCo-LLaMA 方法通过引入 Vision Compression tokens 和利用 attention distillation,实现了视觉压缩并提高推理效率,能够理解时间相关性,在多模态应用中具有广泛的潜力。
Jun, 2024
通过利用图像和视频之间的视觉相似性,本文介绍了一种成本效益较高的视频 - LVLM 模型,通过改进模型结构、引入创新的训练策略,并确定最有效的视频指令数据类型,实现了将基于图像的 LVLM 模型高效演化为视频 - LVLM 模型,并在有限资源环境下强调了时间理解的视频培训数据的重要性,提高了模型性能。
该研究论文提出了一种统一的大规模视觉语言模型(LVLM),通过在语言特征空间中统一视觉表示,学习多模态交互,从而在图像和视频基准任务上取得了卓越性能。
Nov, 2023
通过扩展语言模型的上下文长度,我们实现了视频片段中的长上下文传递,使得大型多模态模型能够理解数量级更多的视觉标记,并开发了一个纯合成的长视觉基准测试,证明了 Long Video Assistant(LongVA)在处理长视频方面的优越性能。
使用长视频理解任务中的 Large Language Models(LLMs)面临的挑战,本文提出了一种名为 LongVLM 的 VideoLLM 模型,通过分解长视频为短期片段,并使用分层令牌合并模块编码局部特征,维护顺序,整合全局语义信息,实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。
Apr, 2024
对于大文本的视觉问题,当前的方法存在产生相关文本的概率较高的问题。本文提出了 Vista-LLaMA 框架,采用了一种新的注意机制,通过保持视觉和文本间的一致距离,特别在相对距离较长的情况下提高了视觉令牌对于文本生成的影响,从而显著降低了生成无关文本的概率。此外,还引入了顺序视觉投影器来处理视频的时间关系,并在四个挑战性的视频问题回答基准测试中表现出优越性能。
Dec, 2023
提出了一种名为 VaLM 的预训练框架,对语言建模进行视觉增强,通过图像检索模块检索相应图像,使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识,并在需要的情况下获取相关联的图片,通过对各种视觉知识密集型的常识推理任务的评估,展示了 VaLM 在推理对象的常识,包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。
May, 2022
本文介绍了一种用于视频 - 语言预训练的高效视频分解的方法,该方法通过设计良好的分词器将视觉和时间信息离散化为少量的标记,从而使大规模生成式预训练能够统一视频、图像和文本内容。在图像和视频的理解和生成的 13 个多模态基准测试中,我们提出的框架表现出竞争性的性能。
Feb, 2024
Video-LLaMA 是一种多模态框架,通过将预训练的视觉和音频编码器与预训练的大型语言模型结合,实现对视频内容的理解,具有捕捉视觉场景中的时间变化和整合音频 - 视觉信号等优势,因此被视为具有潜力的音视频 AI 助手原型。
Jun, 2023
使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法,通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文,从而降低了视频令牌的数量,消除了噪音干扰,并提高了系统性能。