Mar, 2025

V2Flow:统一视觉标记与大型语言模型词汇的自回归图像生成

TL;DR本研究针对传统视觉标记技术的不足,提出了一种新的视觉标记器V2Flow。该方法通过流匹配问题,将视觉标记化与大型语言模型词汇空间紧密结合,从而实现高保真重构和自回归视觉生成。实验结果表明,V2Flow在重新生成质量和标记整合上优于主流的VQ标记器,具有重要的应用潜力。