Nov, 2024

图像理解提升图像生成的有效分词器

TL;DR本研究解决了图像理解(IU)模型在提升图像生成(IG)性能方面的潜力未被充分挖掘的问题。我们提出了一种基于特征重建目标的分词器训练方法,利用预训练的IU编码器提取知识,从而显著提高了IG性能,特别是VQ-KD CLIP在ImageNet-1k上达到了$4.10$的FID值。这些发现可能激励对图像分词器研究的进一步探索,并促使社区重新审视IU与IG之间的关系。