CVPRMar, 2023

对比学习中的多模态表示再探讨:从块和标记嵌入到有限离散标记

TL;DR本文提出了一种基于 Finite Discrete Tokens (FDT) 的多模态表示方法,通过引入 FDT tokens 来代替原有的视觉片段和语言词,减小了不同语义级别和粒度间的差异,实现了更好的跨模态对齐和性能表现。