OLIVE:物体级别的上下文视觉嵌入
当前的视觉语言模型 (VLMs) 的图像理解能力与其在零样本视觉语言任务上的表现强相关。我们提出了一个新的视觉提示调整方案,即使用蜡笔提示进行指导调整,以提高对象级图像理解能力。此外,我们还提出了双重 QLoRA 学习策略,以在视觉指导调整过程中保持对象级图像理解能力,从而在零样本的多个视觉语言基准测试中取得了显著的进展。
Feb, 2024
提出了一种新颖的 OMG-LLaVA 框架,将强大的像素级视觉理解与推理能力相结合,接受各种视觉和文本提示以实现灵活的用户交互。通过将视觉信息、感知先验和视觉提示整合为 LLM 可以理解用户的文本指令,并基于视觉信息提供文本响应和像素级分割结果。OMG-LLaVA 在一个模型中实现了图像级、对象级和像素级的推理和理解,达到了或超过了多个基准测试的专门方法的性能。
Jun, 2024
将大型语言模型(LLM)整合到视觉领域任务中,从而形成视觉 - LLM(V-LLM),在视觉问答(VQA)等视觉语言任务中实现了卓越的性能。通过基于图像坐标的指导微调目标,我们探索了如何为 V-LLM 注入空间意识,包括发现最佳坐标表示、数据效率的指导微调目标和伪数据生成策略。我们的模型在图像和视频领域提升了 VQA 性能,减少了不必要的幻觉,并生成了更好的上下文对象描述。通过涉及 14 个不同数据集的 5 个视觉语言任务的实验,验证了我们提出的框架明显的性能改进。
Apr, 2024
一种新的多模式预训练和指令微调范式 Lyrics,通过细粒度的跨模态协作,将从细粒度视觉精炼器中提取的局部视觉特征注入到查询转换器中,同时,在语言输入的边界框和标签方面使用从视觉精炼器中推导出的信息,通过两阶段训练方案实现模态融合,从而在各种视觉语言任务中取得了强大的性能和有希望的多模态理解和详细描绘能力。
Dec, 2023
本文通过设计一种探针模型,研究了上下文语言模型对应的具体名词在视觉表示方面的关联程度,并发现语言表示本身就具有检索正确对象类别的强信号以及检索图像特定实例的效果,而文本上下文在该过程中发挥了重要作用,但比起人类,具有图像为基础的语言模型在实例检索方面表现稍逊。我们希望这些结果能够启发未来的研究,进一步地理解和改善语言模型的视觉能力。
May, 2020
提出了一种名为 VaLM 的预训练框架,对语言建模进行视觉增强,通过图像检索模块检索相应图像,使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识,并在需要的情况下获取相关联的图片,通过对各种视觉知识密集型的常识推理任务的评估,展示了 VaLM 在推理对象的常识,包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。
May, 2022
我们提出了一种方法来边际化通过 VLM 查询变化的任何因素,利用采样响应的 VLM 分数。我们展示了这种概率整合可以在摘要中胜过语言模型(如 GPT4),避免了在响应之间存在对比细节时的幻觉。此外,我们展示了聚合注释对于 Prompt-Chaining 是有用的;它们有助于改进下游 VLM 的预测,例如当在提示中将对象类型指定为辅助输入时,提高了对物体材料的预测质量。利用这些评估,我们展示了 VLM 可以在大规模 Objaverse 数据集上接近人工验证的类型和材料注释的质量,而无需额外的训练或上下文学习。
Nov, 2023
DVDet 是一个描述符增强的开放词汇检测器,引入条件上下文提示和分层文本描述符,实现了精确的区域 - 文本对齐以及一般的开放词汇检测训练。
Feb, 2024
本文提出了一种基于物体级别视觉上下文建模的多模态机器翻译框架,采用对象掩模技术在可视模态下掩盖与源文本不相关的对象以实现翻译的视觉基础,同时引入了视觉加权翻译损失提高目标语言的视觉一致性,实验表明该模型优于现有的多模态机器翻译模型。
Dec, 2020
通过引入一种新颖的视觉上下文学习方法(VICL),包括视觉演示检索、目标导向图像摘要和目标导向演示组合,解决了大型视觉语言模型(LVLMs)中上下文学习的挑战,提高了效果,并且进一步调查了演示文本长度和位置对 LVLM 的影响,展示了 ICL 复位特定模型知识的潜力。
Feb, 2024