ViT-Lens-2: 通往全模态智能的入口

Nov, 2023

ViT-Lens-2: Gateway to Omni-modal Intelligence

Weixian Lei, Yixiao Ge, Kun Yi, Jianfeng Zhang, Difei Gao...

TL;DR通过使用预训练的 ViT 和对齐模态，ViT-Lens-2 提供了一种有效的方法来探索新颖模态的各种新颖任务，并在各种理解任务中取得了新的最佳结果，包括零样本分类。

Abstract

Aiming to advance AI agents, large foundation models significantly improve reasoning and instruction execution, yet the current focus on vision and language neglects the potential of perceiving diverse modalities in open-world environments. However, the success of data-driven vision and language models is costly or even infeasible to be reproduced for rare m

vit-lens-2 omni-modal representation learning modality alignment pretrained vits zero-shot classification

发现论文，激发创造

ViT-Lens: 走向全模态表示

本文介绍了一种名为 ViT-Lens 的方法，通过使用预训练的 ViT 模型感知新颖形式的多模态数据，并与预定义空间进行对齐，从而实现高效的全模态表示学习。在以 3D 为例的验证中，ViT-Lens 在零样本 3D 分类任务中取得了显著的改进，同时还成功将训练好的 3D lens 集成到 InstructBLIP 模型中实现了零样本 3D 问答。

Aug, 2023

eP-ALM: 语言模型的高效感知增强

本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM，在冻结大多数参数、仅训练一个线性投影层，前置仅一个可训练标记的情况下，显著优于基线，并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。

Mar, 2023

InternVL：扩展视觉基础模型并对通用视觉语言任务进行对齐

通过设计大规模的视觉语言基础模型 (InternVL)，其参数规模扩展到 60 亿，并逐步与大型语言模型对齐，该研究旨在推动视觉与视觉语言基础模型的发展与应用，以实现视觉感知任务的最新性能、多模式对话系统的构建和与大型语言模型的链接。

Dec, 2023

朝着能够看见的语言模型：通过自然语言镜头看计算机视觉

LENS 是一种模块化的方法，针对计算机视觉问题，利用大型语言模型进行推理，可以应用于零 / 少样本对象识别，以及视觉和语言问题。

Jun, 2023

ViLaM: 具有增强的视觉定位和泛化能力的视觉语言模型

该研究提出了 ViLaM，一个统一的视觉 - 语言转换模型，通过集成基于大型语言模型的指令调整，能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力，从而在医学图像分析等复杂视觉任务中取得了非凡的表现，并展示了其令人印象深刻的零样本学习能力，表明 ViLaM 在医学领域具有潜在的未来应用。

Nov, 2023

VisionGPT：通用多模态框架基于视觉 - 语言理解 Agent

介绍 VisionGPT，通过整合和自动化最先进的基础模型，促进视觉语言理解和视觉导向人工智能的发展，具有高效性、通用性和性能表现的潜力。

Mar, 2024

ViTamin：设计可扩展的视觉模型在视觉语言时代

该论文介绍了一种基于对比性语言 - 图像预训练框架的视觉模型评估协议，其中引入了一种新的视觉模型 ViTamin，该模型在零样本任务和模型规模扩展等方面表现出色。

Apr, 2024

将更多关注转移到视觉语言对象追踪上

我们设计了一种有效的视觉 - 语言表示方法，同时为追踪问题构建了一个大型带有语言注释的数据库。通过引入异构架构搜索和模态混合器等核心技术，以及对不同模态之间进行对比损失的引入，我们能够显著改善追踪问题的解决方案，并期望将更多注意力转向视觉 - 语言追踪，为未来的多样化多模态消息追踪开辟更多可能性。

Jul, 2023

不需重训练的扩展冻结视觉 - 语言模型：朝着改进机器人感知能力迈进

通过对齐不同类型嵌入空间的方法，本研究展示了使用多模态输入改善视觉语言模型在场景理解和任务表现方面的效果，从而为多模态环境中更加多功能和有能力的语言模型铺平了道路。

Aug, 2023

ULIP-2: 面向可伸缩的多模态 3D 预训练

ULIP-2 是一个用于 3D 表示学习的多模态预训练框架，它创建了包含图像、语言和 3D 点云的三模态三元组数据集，拥有更强的可扩展性和综合性，并利用大型语言模型自动生成全面的 3D 对象语言描述来提高多模态预训练的效果，并在 ModelNet40 和 ScanObjectNN 等数据集上取得了令人瞩目的结果。

May, 2023