Aug, 2023

ViT-Lens: 走向全模态表示

TL;DR本文介绍了一种名为 ViT-Lens 的方法,通过使用预训练的 ViT 模型感知新颖形式的多模态数据,并与预定义空间进行对齐,从而实现高效的全模态表示学习。在以 3D 为例的验证中,ViT-Lens 在零样本 3D 分类任务中取得了显著的改进,同时还成功将训练好的 3D lens 集成到 InstructBLIP 模型中实现了零样本 3D 问答。