本地化符号化知识蒸馏用于视觉常识模型

Dec, 2023

本地化符号化知识蒸馏用于视觉常识模型

Localized Symbolic Knowledge Distillation for Visual Commonsense Models

Jae Sung Park, Jack Hessel, Khyathi Raghavi Chandu, Paul Pu Liang, Ximing Lu...

TL;DR使用局部可见的常识模型来训练视觉 - 语言模型以支持图像内部推理。

Abstract

Instruction following vision-language (VL) models offer a flexible interface that supports a broad range of multimodal tasks in a zero-shot fashion. However, interfaces that operate on full images do not directly enable the user to "point to" and access specific regions within images.

vision-language models multimodal tasks localized visual commonsense models reference-grounded vl benchmarks precise within-image reasoning

发现论文，激发创造

在视觉 - 语言模型中实现交互式区域理解

通过引入具有明确区域建模能力的 RegionVLM 模型，并利用包含区域信息的 Localized Narratives 数据集，我们的实验表明，我们的单一通用模型不仅实现了交互式对话系统，还在各种零样本区域理解任务上展现出了卓越的性能，而不会损害其对全局图像的理解能力。

Mar, 2024

从视觉语言模型中提炼，以改善视觉任务中的 OOD 泛化能力

Vision-Language to Vision-Align, Distill, Predict (VL2V-ADiP) is a proposed approach that aligns vision and language modalities to distill pre-trained features and superior generalization for state-of-the-art results in Domain Generalization using Vision-Language Models like CLIP.

Oct, 2023

通过多图像生成改善语言模型中的视觉常识

基于多模态知识的常识推理是根本，我们介绍了一种方法来增强大型语言模型的视觉常识能力，该方法通过生成多个图像并将其与模型的决策过程相融合来提供综合的图像和文本知识。这种方法在不仅在视觉常识上，还在传统自然语言处理基准上优于现有基线模型。

Jun, 2024

学习定位对象提高视觉语言模型的空间推理能力

将大型语言模型（LLM）整合到视觉领域任务中，从而形成视觉 - LLM（V-LLM），在视觉问答（VQA）等视觉语言任务中实现了卓越的性能。通过基于图像坐标的指导微调目标，我们探索了如何为 V-LLM 注入空间意识，包括发现最佳坐标表示、数据效率的指导微调目标和伪数据生成策略。我们的模型在图像和视频领域提升了 VQA 性能，减少了不必要的幻觉，并生成了更好的上下文对象描述。通过涉及 14 个不同数据集的 5 个视觉语言任务的实验，验证了我们提出的框架明显的性能改进。

Apr, 2024

通过视觉语言知识蒸馏实现在 CLIP 上的多模态生成

通过视觉 - 语言知识蒸馏 (VLKD) 增强双流 VLP 模型，使其具有多模态生成能力，实现开放式视觉问答和图像字幕等多模态生成任务的强零 - shot 性能。

Mar, 2022

选择与概括：选择性双教师知识迁移用于视觉语言模型的持续学习

大规模视觉语言模型（VLMs）展示了对未见域数据具有强大的零样本泛化能力。然而，适应预训练的 VLMs 并执行一系列下游任务时，它们容易忘记以前学到的知识并降低其零样本分类能力。为解决这个问题，我们提出了一种独特的选择性双教师知识迁移框架，利用最新的精细调整和原始的预训练 VLMs 作为双教师来保留以前学到的知识和零样本能力。通过仅访问未标记的参考数据集，我们提出的框架通过测量双教师 VLMs 的特征差异来执行选择性知识蒸馏机制。因此，我们的选择性双教师知识蒸馏将缓解以前学到的知识的灾难性遗忘，同时保留预训练 VLMs 的零样本能力。通过对基准数据集进行大量实验，我们证明了我们的提出的框架对于防止灾难性遗忘和零样本退化的最新持续学习方法是有利的。

Mar, 2024

VIPHY：探究 “可见” 的物理常识知识

本研究使用自动管道方法研究了视觉 - 语言模型在获取 “可见” 物理知识方面的能力，并发现这些模型在物体颜色，大小和空间三个方面的表现与人类存在明显差距。而采用预训练的基线模型 (CapBERT) 可以取得更好的表现。

Sep, 2022

ViCor：用大型语言模型桥接视觉理解和常识推理

我们的研究工作探索了预训练的视觉语言模型（VLM）和大型语言模型（LLM）在视觉常识推理（VCR）中的协同能力。我们将 VCR 问题分为视觉常识理解（VCU）和视觉常识推断（VCI）两个方面。在 VCU 方面，预训练的 VLM 展示出强大的跨数据集泛化能力。然而，在 VCI 方面，VLM 面临困难。我们提出了名为 ViCor 的协作方法，在 VCI 中通过 LLM 主动引导 VLM 集中关注和收集相关的视觉元素来支持潜在的常识推断。我们的方法在两个 VCR 基准数据集上得到了评估，并且在不需要领域内监督微调的所有其他方法之上取得了优越的表现。

Oct, 2023

知识蒸馏的视觉语言模型压缩

本文提出 VL distillation，使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型，以提高图像字幕生成和视觉问答任务中的性能。

Apr, 2021

像素对齐的语言模型

本研究探讨了如何使用大型语言模型进行定位任务，包括词语对应定位和参照定位，通过模型的输入和输出使用位置作为参数来生成图像描述，实现稠密单词定位，并在多个视觉和语言任务中达到了最先进的性能。

Dec, 2023