CVPRMar, 2023
对比学习中的多模态表示再探讨:从块和标记嵌入到有限离散标记
Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens
Yuxiao Chen, Jianbo Yuan, Yu Tian, Shijie Geng, Xinyu Li...
TL;DR本文提出了一种基于 Finite Discrete Tokens (FDT) 的多模态表示方法,通过引入 FDT tokens 来代替原有的视觉片段和语言词,减小了不同语义级别和粒度间的差异,实现了更好的跨模态对齐和性能表现。