RegionBLIP：面向整体和区域理解的统一多模态预训练框架

Aug, 2023

RegionBLIP：面向整体和区域理解的统一多模态预训练框架

RegionBLIP: A Unified Multi-modal Pre-training Framework for Holistic and Regional Comprehension

Qiang Zhou, Chaohui Yu, Shaofeng Zhang, Sitong Wu, Zhibing Wang...

TL;DR本研究探讨了如何扩展多模态大型语言模型 (MLLMs) 对区域对象的理解能力，提出了一种提取区域对象特征作为 LLM 的软提示的方法，并通过新颖的 position-assisted 特征提取模块有效地从图像和点云数据中提取区域特征，通过冻结预训练的 MLLM 并对新增模态的参数进行优化，无需进行大规模的图像 - 文本数据预训练即可达到对图像和文本的理解能力，实验证明该方法能够保留 BILP-2 的图像理解能力，并进一步获取对点云模态和区域对象的理解。

Abstract

In this work, we investigate extending the comprehension of Multi-modal Large Language Models (MLLMs) to regional objects. To this end, we propose to extract features corresponding to →

multi-modal large language models regional objects feature extraction pre-training comprehension

发现论文，激发创造

RegionCLIP: 基于区域的语言 - 图像预训练

RegionCLIP 是一种新的方法，扩展了 CLIP 模型的范围，使其可以学习区域级别的视觉表征，从而实现图像区域和文本概念之间的细粒度对齐，进而在目标检测领域表现出良好的性能。

Dec, 2021

BLIP: 为实现统一的视觉语言理解与生成，引入语言 - 图像引导预训练

本文提出了 BLIP 作为新的 VLP 框架，通过引入 captioner 生成合成字幕，并使用 filter 删除噪音数据，能灵活地传输视觉语言理解和生成任务，获得了在一系列视觉语言任务中最先进的结果，同时在零样本任务中也表现出极强的泛化能力。

Jan, 2022

高效多语言视觉 - LLMs 引导程序的启动

通过利用机器翻译产生多语言数据来实现对预训练的多语言 LLM 的图像编码器的重新对准，从而在消费者硬件上使用少量训练数据来获得第一款多语言 Vision-LLM，与从头开始训练的大规模 Vision-LLM 相比表现出色。

Jul, 2023

城市区域概述与大型语言模型相结合

通过引入文本模态，利用大型语言模型（LLMs）的能力，本文介绍了一种集成文本模态于城市影像特征建模的框架 UrbanCLIP，并以四个中国主要大都市为例，对三个城市指标进行预测，相较于最先进的方法，平均提升了 6.1% 的 R^2 表现。

Oct, 2023

在视觉 - 语言模型中实现交互式区域理解

通过引入具有明确区域建模能力的 RegionVLM 模型，并利用包含区域信息的 Localized Narratives 数据集，我们的实验表明，我们的单一通用模型不仅实现了交互式对话系统，还在各种零样本区域理解任务上展现出了卓越的性能，而不会损害其对全局图像的理解能力。

Mar, 2024

ULIP-2: 面向可伸缩的多模态 3D 预训练

ULIP-2 是一个用于 3D 表示学习的多模态预训练框架，它创建了包含图像、语言和 3D 点云的三模态三元组数据集，拥有更强的可扩展性和综合性，并利用大型语言模型自动生成全面的 3D 对象语言描述来提高多模态预训练的效果，并在 ModelNet40 和 ScanObjectNN 等数据集上取得了令人瞩目的结果。

May, 2023

BLIP-2：使用冻结图像编码器和大型语言模型引导语言图像预训练

本文提出 BLIP-2，一种通用且高效的预训练策略，通过使用冻结的图像编码器和大型语言模型来引导视觉语言表示学习，从而实现零样本图像到文本的生成。BLIP-2 在各种视觉语言任务上取得了最先进的性能。

Jan, 2023

解耦语言预训练引导视觉 - 语言学习

该论文提出了一种新的方法，使用 Prompt-Transformer 模型，基于语言数据而不是图像 - 文本配对来预测理想 prompts，从而优化了资源密集型视觉语言预训练过程，提高了大语言模型的性能。

Jul, 2023

MedBLIP: 从 3D 医疗影像和文本数据进行语言 - 图像预训练的自举方法

本文提出了 MedBLIP，这是一个轻量级的 CAD 系统，利用预训练的图像编码器和语言模型，结合维度转换，对医学图像扫描和电子医疗记录中的文本描述进行预训练，最终在 Alzheimer's 病例分类和医学 VQA 领域表现出 SOTA 性能。

May, 2023

BLIP-Diffusion: 预训练主体表示，用于可控文本到图像生成和编辑

本文提出了一种支持多模态控制的主题驱动图像生成模型 BLIP-Diffusion，其中引入了一个新的多模态编码器进行图像和文本的表示。相对于 DreamBooth 等现有方法，该模型使的主题驱动生成零 - shot 成为可能，并且可以高效地进行 fine-tuning，为自定义主题带来了高达 20 倍的加速。同时，BLIP-Diffusion 可以与 ControlNet 和 prompt-to-prompt 等技术灵活结合，实现新的主题驱动生成和编辑应用。

May, 2023