ViT-Lens: 走向全模态表示

Aug, 2023

ViT-Lens: Towards Omni-modal Representations

Weixian Lei, Yixiao Ge, Jianfeng Zhang, Dylan Sun, Kun Yi...

TL;DR本文介绍了一种名为 ViT-Lens 的方法，通过使用预训练的 ViT 模型感知新颖形式的多模态数据，并与预定义空间进行对齐，从而实现高效的全模态表示学习。在以 3D 为例的验证中，ViT-Lens 在零样本 3D 分类任务中取得了显著的改进，同时还成功将训练好的 3D lens 集成到 InstructBLIP 模型中实现了零样本 3D 问答。

Abstract

Though the success of clip-based training recipes in vision-language models, their scalability to more modalities (e.g., 3D, audio, etc.) is limited to large-scale data, which is expensive or even inapplicable for rare modalities. In this paper, we present →

clip-based training vit-lens omni-modal representation learning multimodal signals zero-shot 3d classification

发现论文，激发创造

ViT-Lens-2: 通往全模态智能的入口

通过使用预训练的 ViT 和对齐模态，ViT-Lens-2 提供了一种有效的方法来探索新颖模态的各种新颖任务，并在各种理解任务中取得了新的最佳结果，包括零样本分类。

Nov, 2023

ViTamin：设计可扩展的视觉模型在视觉语言时代

该论文介绍了一种基于对比性语言 - 图像预训练框架的视觉模型评估协议，其中引入了一种新的视觉模型 ViTamin，该模型在零样本任务和模型规模扩展等方面表现出色。

Apr, 2024

eP-ALM: 语言模型的高效感知增强

本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM，在冻结大多数参数、仅训练一个线性投影层，前置仅一个可训练标记的情况下，显著优于基线，并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。

Mar, 2023

ULIP-2: 面向可伸缩的多模态 3D 预训练

ULIP-2 是一个用于 3D 表示学习的多模态预训练框架，它创建了包含图像、语言和 3D 点云的三模态三元组数据集，拥有更强的可扩展性和综合性，并利用大型语言模型自动生成全面的 3D 对象语言描述来提高多模态预训练的效果，并在 ModelNet40 和 ScanObjectNN 等数据集上取得了令人瞩目的结果。

May, 2023

将更多关注转移到视觉语言对象追踪上

我们设计了一种有效的视觉 - 语言表示方法，同时为追踪问题构建了一个大型带有语言注释的数据库。通过引入异构架构搜索和模态混合器等核心技术，以及对不同模态之间进行对比损失的引入，我们能够显著改善追踪问题的解决方案，并期望将更多注意力转向视觉 - 语言追踪，为未来的多样化多模态消息追踪开辟更多可能性。

Jul, 2023

MVP: 多模态引导的视觉预训练

本文介绍了一种名为 Multimodality-guided Visual Pre-training (MVP) 的方法，该方法利用来自其他几个模态的指导信息对图像进行预训练，取代了 Vision Transformer 中的 tokenizer，并在一系列下游视觉识别任务中取得了显著优越的效果。

Mar, 2022

多模视觉监督对语言有益吗？

本文探讨和研究使用视觉监督学习的语言表示相对于常规语言表示对自然语言理解和常识推理基准测试的优劣，并根据多个图文模型和视频文本模型的实验结果发现，常规语言表示在多数任务中表现更好，揭示了视觉 - 语言模型当前的缺陷。

Feb, 2023

朝着能够看见的语言模型：通过自然语言镜头看计算机视觉

LENS 是一种模块化的方法，针对计算机视觉问题，利用大型语言模型进行推理，可以应用于零 / 少样本对象识别，以及视觉和语言问题。

Jun, 2023

PolyViT：基于图像、视频和音频的联合训练视觉 Transformer 模型

本文提出了一种名为 PolyViT 的多模态 Transformer 模型，并通过在单模态上协同训练不同任务，提高了每个任务的准确性。通过在多模态和任务上共同训练 PolyViT 模型，可以更加节省参数，并学习可适用多个领域的表示。此外，我们证明了共同训练是简单和实用的，因为我们不需要为每个数据集组合调整超参数，而是可以直接从标准单任务训练中适应。

Nov, 2021

Multi-CLIP：针对 3D 场景中问答任务的对比视觉语言预训练

本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型，可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。

Jun, 2023