像素对齐的语言模型

Dec, 2023

Pixel Aligned Language Models

Jiarui Xu, Xingyi Zhou, Shen Yan, Xiuye Gu, Anurag Arnab...

TL;DR本研究探讨了如何使用大型语言模型进行定位任务，包括词语对应定位和参照定位，通过模型的输入和输出使用位置作为参数来生成图像描述，实现稠密单词定位，并在多个视觉和语言任务中达到了最先进的性能。

Abstract

large language models have achieved great success in recent years, so as their variants in vision. Existing vision-language models can describe images in natural languages, answer visual-related questions, or per

large language models vision-language models localization tasks word grounding referring localization

发现论文，激发创造

在视觉 - 语言模型中实现交互式区域理解

通过引入具有明确区域建模能力的 RegionVLM 模型，并利用包含区域信息的 Localized Narratives 数据集，我们的实验表明，我们的单一通用模型不仅实现了交互式对话系统，还在各种零样本区域理解任务上展现出了卓越的性能，而不会损害其对全局图像的理解能力。

Mar, 2024

学习定位对象提高视觉语言模型的空间推理能力

将大型语言模型（LLM）整合到视觉领域任务中，从而形成视觉 - LLM（V-LLM），在视觉问答（VQA）等视觉语言任务中实现了卓越的性能。通过基于图像坐标的指导微调目标，我们探索了如何为 V-LLM 注入空间意识，包括发现最佳坐标表示、数据效率的指导微调目标和伪数据生成策略。我们的模型在图像和视频领域提升了 VQA 性能，减少了不必要的幻觉，并生成了更好的上下文对象描述。通过涉及 14 个不同数据集的 5 个视觉语言任务的实验，验证了我们提出的框架明显的性能改进。

Apr, 2024

本地化符号化知识蒸馏用于视觉常识模型

使用局部可见的常识模型来训练视觉 - 语言模型以支持图像内部推理。

Dec, 2023

对比式视觉 - 语言对齐提高指示学习效率

通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐，我们提出了 CG-VLM 模型，有效地实现了视觉 - 语言的对齐，成为一种高效的指令学习器。

Nov, 2023

无需定位监督学习生成有依据的视觉描述

通过使用循环训练程序来帮助模型在生成句子描述并从本地化的图像 / 视频区域中重建句子以匹配基本事实的过程中，提高了图像标题生成模型的文本本地化能力，而不需要使用本地化监督或在推理过程中引入额外的计算。

Jun, 2019

RegionGPT：面向区域理解的视觉语言模型

区域语言模型 (RegionGPT) 是一种新的框架，通过改进视觉编码器的空间感知能力以及集成任务导向指令提示来实现复杂的区域级标题生成和理解，提高在复杂区域描述、推理、对象分类和引用表达理解等区域级任务上的性能。

Mar, 2024

ViLaM: 具有增强的视觉定位和泛化能力的视觉语言模型

该研究提出了 ViLaM，一个统一的视觉 - 语言转换模型，通过集成基于大型语言模型的指令调整，能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力，从而在医学图像分析等复杂视觉任务中取得了非凡的表现，并展示了其令人印象深刻的零样本学习能力，表明 ViLaM 在医学领域具有潜在的未来应用。

Nov, 2023

基于综合图像 - 语言线索的短语定位和视觉关系检测

该论文提出了一种利用大量语言和视觉线索定位或落实图像中短语的框架，该系统在 Flickr30k 实体数据集的短语定位和斯坦福 VRD 数据集的视觉关系检测上取得了最先进的性能。

Nov, 2016

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

语言空间中的图像：探索大语言模型在视觉和语言任务中的适用性

本篇文章研究了如何通过联合对话模型和语言模型使其能够有效地处理视觉信息，解决了在有限样本时视觉 - 语言任务的问题，使输出更易于解释。

May, 2023