BriefGPT.xyz
Ask
alpha
关键词
omni-modal representation learning
搜索结果 - 2
ViT-Lens-2: 通往全模态智能的入口
通过使用预训练的 ViT 和对齐模态,ViT-Lens-2 提供了一种有效的方法来探索新颖模态的各种新颖任务,并在各种理解任务中取得了新的最佳结果,包括零样本分类。
PDF
7 months ago
ViT-Lens: 走向全模态表示
本文介绍了一种名为 ViT-Lens 的方法,通过使用预训练的 ViT 模型感知新颖形式的多模态数据,并与预定义空间进行对齐,从而实现高效的全模态表示学习。在以 3D 为例的验证中,ViT-Lens 在零样本 3D 分类任务中取得了显著的改
→
PDF
a year ago
Prev
Next