视频LLaVA:前投影前学习统一视觉表示
Video-LLaMA是一种多模态框架,通过将预训练的视觉和音频编码器与预训练的大型语言模型结合,实现对视频内容的理解,具有捕捉视觉场景中的时间变化和整合音频-视觉信号等优势,因此被视为具有潜力的音视频AI助手原型。
Jun, 2023
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
通过引入一种简单但有效的汇聚策略,本文将图像-语言预训练模型应用于视频理解任务,并在问题回答和字幕生成等基准测试上取得了最新的最佳表现。
Apr, 2024
运用Matryoshka Query Transformer (MQT)模型及变长的嵌入方式,实现图像编码成可调根数的视觉令牌,并通过组合MQT与LLaVA模型,在保持类似性能的同时,大幅减少了推理时所需的视觉令牌数量。
May, 2024
通过利用图像和视频之间的视觉相似性,本文介绍了一种成本效益较高的视频-LVLM模型,通过改进模型结构、引入创新的训练策略,并确定最有效的视频指令数据类型,实现了将基于图像的LVLM模型高效演化为视频-LVLM模型,并在有限资源环境下强调了时间理解的视频培训数据的重要性,提高了模型性能。
Jun, 2024
采用多种视觉特征与语言模型相结合的创新方法MG-LLaVA,在感知任务中提供了出色的表现,并且超越了相似参数规模的现有模型,具备出色的目标识别能力。
Jun, 2024
我们发现一种意外的多语言偏差存在于一类流行的多模态视觉语言模型(VLMs)中。将图像包含在LLaVA风格的VLM查询中,无论查询的语言如何,模型返回英文响应的可能性显着增加。本文通过对设计空间进行广泛剔除和模型对图像和文本输入进行机械分析的双重方法,调查了产生此损失的原因。两种方法都表明该问题源于LLaVA模型的语言建模组件。从统计上看,我们发现将语言主干切换为双语语言模型对减少此错误具有最强的效果。从机理上看,我们提供了有力的证据表明视觉输入与文本输入不被映射到类似的空间,并且对中间注意力层进行干预可以减少此偏差。我们的发现为希望了解多模态和多语言空间之间交叉的研究人员和工程师提供了重要的见解,并为开发适用于非英语环境的能力强大且包容性的VLMs的目标做出了贡献。
Jul, 2024
本研究针对现有多模态大语言模型在视频理解任务中存在的局限,提出了两种改进策略,通过优化大语言模型的层间注意力计算来提升其视频理解能力。研究结果表明,TC-LLaVA在多个视频理解基准测试中达到了新的最佳表现,展示了在视频相关数据集上仅通过监督微调的有效性。
Sep, 2024
本研究解决了现有视觉语言模型(VLMs)在视觉编码器改进方面的不足。提出的文本引导LLaVA(TG-LLaVA)通过学习可潜在嵌入来指导视觉编码器,并且实验表明该方法在不同设置下均取得了显著改善,具有较大潜力而无需额外训练数据。
Sep, 2024
本文针对现有视觉语言模型(VLMs)中视觉编码器提升不足的问题,提出了一种新的优化方向——文本引导的LLaVA(TG-LLaVA)。通过使用可学习的潜在嵌入,分析文本指令并将其作为指导输入到视觉编码器,显著改进了特征提取的相关性,实验结果表明该方法在不同设置下均优于现有技术。此研究无需额外训练数据,展现了可观的性能提升潜力。
Sep, 2024