May, 2025

TokLIP:将视觉令牌与CLIP结合实现多模态理解与生成

TL;DR本研究针对多模态统一中的训练计算开销高和理解性能受限的问题,提出了一种新颖的视觉令牌化方法TokLIP,通过语义化向量量化令牌并融合CLIP语义,进行端到端的多模态自回归训练。研究结果表明,TokLIP在数据效率方面表现出色,不仅赋予视觉令牌高层次的语义理解能力,还增强了低层次的生成能力,适用于自回归Transformer的理解和生成任务。