Weixian Lei, Yixiao Ge, Kun Yi, Jianfeng Zhang, Difei Gao...
TL;DR通过使用预训练的 ViT 和对齐模态,ViT-Lens-2 提供了一种有效的方法来探索新颖模态的各种新颖任务,并在各种理解任务中取得了新的最佳结果,包括零样本分类。
Abstract
Aiming to advance AI agents, large foundation models significantly improve
reasoning and instruction execution, yet the current focus on vision and
language neglects the potential of perceiving diverse modalities in open-world
environments. However, the success of data-driven vision and language models is
costly or even infeasible to be reproduced for rare m
本文介绍了一种名为 ViT-Lens 的方法,通过使用预训练的 ViT 模型感知新颖形式的多模态数据,并与预定义空间进行对齐,从而实现高效的全模态表示学习。在以 3D 为例的验证中,ViT-Lens 在零样本 3D 分类任务中取得了显著的改进,同时还成功将训练好的 3D lens 集成到 InstructBLIP 模型中实现了零样本 3D 问答。
ULIP-2 是一个用于 3D 表示学习的多模态预训练框架,它创建了包含图像、语言和 3D 点云的三模态三元组数据集,拥有更强的可扩展性和综合性,并利用大型语言模型自动生成全面的 3D 对象语言描述来提高多模态预训练的效果,并在 ModelNet40 和 ScanObjectNN 等数据集上取得了令人瞩目的结果。