Jun, 2024

一幅图像对于重建与生成而言价值 32 个令牌

TL;DR这篇研究论文介绍了一种基于 Transformer 的一维令牌化方法(TiTok),其将图像令牌化为一维潜在序列,通过提供更紧凑的潜在表示形式,实现了比传统技术更高效和更有效的图像合成。