通过引入具有明确区域建模能力的 RegionVLM 模型,并利用包含区域信息的 Localized Narratives 数据集,我们的实验表明,我们的单一通用模型不仅实现了交互式对话系统,还在各种零样本区域理解任务上展现出了卓越的性能,而不会损害其对全局图像的理解能力。
Mar, 2024
将大型语言模型(LLM)整合到视觉领域任务中,从而形成视觉 - LLM(V-LLM),在视觉问答(VQA)等视觉语言任务中实现了卓越的性能。通过基于图像坐标的指导微调目标,我们探索了如何为 V-LLM 注入空间意识,包括发现最佳坐标表示、数据效率的指导微调目标和伪数据生成策略。我们的模型在图像和视频领域提升了 VQA 性能,减少了不必要的幻觉,并生成了更好的上下文对象描述。通过涉及 14 个不同数据集的 5 个视觉语言任务的实验,验证了我们提出的框架明显的性能改进。
Apr, 2024
使用局部可见的常识模型来训练视觉 - 语言模型以支持图像内部推理。
Dec, 2023
通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐,我们提出了 CG-VLM 模型,有效地实现了视觉 - 语言的对齐,成为一种高效的指令学习器。
Nov, 2023
通过使用循环训练程序来帮助模型在生成句子描述并从本地化的图像 / 视频区域中重建句子以匹配基本事实的过程中,提高了图像标题生成模型的文本本地化能力,而不需要使用本地化监督或在推理过程中引入额外的计算。
Jun, 2019
区域语言模型 (RegionGPT) 是一种新的框架,通过改进视觉编码器的空间感知能力以及集成任务导向指令提示来实现复杂的区域级标题生成和理解,提高在复杂区域描述、推理、对象分类和引用表达理解等区域级任务上的性能。
该研究提出了 ViLaM,一个统一的视觉 - 语言转换模型,通过集成基于大型语言模型的指令调整,能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力,从而在医学图像分析等复杂视觉任务中取得了非凡的表现,并展示了其令人印象深刻的零样本学习能力,表明 ViLaM 在医学领域具有潜在的未来应用。
该论文提出了一种利用大量语言和视觉线索定位或落实图像中短语的框架,该系统在 Flickr30k 实体数据集的短语定位和斯坦福 VRD 数据集的视觉关系检测上取得了最先进的性能。
Nov, 2016
提出了一种名为 VaLM 的预训练框架,对语言建模进行视觉增强,通过图像检索模块检索相应图像,使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识,并在需要的情况下获取相关联的图片,通过对各种视觉知识密集型的常识推理任务的评估,展示了 VaLM 在推理对象的常识,包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。
May, 2022
本篇文章研究了如何通过联合对话模型和语言模型使其能够有效地处理视觉信息,解决了在有限样本时视觉 - 语言任务的问题,使输出更易于解释。
May, 2023