图像理解提升图像生成的有效分词器

Nov, 2024

图像理解提升图像生成的有效分词器

Image Understanding Makes for A Good Tokenizer for Image Generation

Luting Wang, Yang Zhao, Zijian Zhang, Jiashi Feng, Si Liu...

TL;DR本研究解决了图像理解（IU）模型在提升图像生成（IG）性能方面的潜力未被充分挖掘的问题。我们提出了一种基于特征重建目标的分词器训练方法，利用预训练的IU编码器提取知识，从而显著提高了IG性能，特别是VQ-KD CLIP在ImageNet-1k上达到了$4.10$的FID值。这些发现可能激励对图像分词器研究的进一步探索，并促使社区重新审视IU与IG之间的关系。

Abstract

Abstract Modern Image Generation (IG) models have been shown to capture rich semantics valuable for Image Understanding (IU) tasks. However, the potential of IU models to improve IG performance remains uncharted.

发现论文，激发创造

在大型语言模型中种下一个愿景的种子

本文介绍了SEED，一种复杂的图像分词器，可使大型语言模型同时有看和画的能力，并提出了两个重要的原则，以有效地便于将SEED与LLMs对齐。

Jul, 2023

Efficient-VQGAN: 高分辨率图像生成的高效视觉Transformer

通过引入局部关注机制、融合全局关注和局部关注机制、以及自动编码训练和自回归生成策略，提出了一种高分辨率图像生成的高效两阶段框架，实现了更高效率、更好的重建质量和更高分辨率的图像合成。

Oct, 2023

预训练语言模型无助于自回归文本到图像生成

最新的图像编码器 VQ-VAE 已经能够使用自回归方法进行文本到图像的生成，但是这些方法尚未利用预训练语言模型的适应性，本研究通过调整预训练语言模型，对自回归文本到图像生成进行了探索，发现预训练语言模型的帮助有限，并提供了两方面的解释，即图像标记与文本标记的语义存在显著差异，导致预训练语言模型对它们的建模效果不如随机初始化模型，并且图像文本数据集中的文本标记与正常语言模型预训练数据相比过于简单，导致语言模型能力的灾难性降低。

Nov, 2023

基于小波的图像分词方法用于视觉变压器

基于小波变换的图像分词器提高了训练吞吐量并减少了 ImageNet 验证集的 top-1 误差率，同时为基于 ViT 模型设计提供了新的研究方向。

May, 2024

一幅图像对于重建与生成而言价值32个令牌

这篇研究论文介绍了一种基于Transformer的一维令牌化方法（TiTok），其将图像令牌化为一维潜在序列，通过提供更紧凑的潜在表示形式，实现了比传统技术更高效和更有效的图像合成。

Jun, 2024

图像文件夹：折叠标记的自回归图像生成

本研究解决了图像标记长度对图像重构和生成质量之间的权衡问题。提出的ImageFolder语义标记器通过折叠标记的方式提升自回归建模的生成效率和质量，利用双分支产品量化增强代表能力而不增加标记长度。实验结果表明，ImageFolder标记器在生成质量和标记长度方面表现优越。

Oct, 2024

从像素到标记：量化视觉模态中的字节对编码

本研究针对多模态大型语言模型在视觉与文本信息对齐方面的困难，提出了一种新型图像标记器，利用字节对编码原理直接将结构先验信息融入图像标记中。这一创新方法显著提升了模型在多模态理解能力上的表现，并展示了在有限训练数据下的良好扩展性，可能为更高效的多模态基础模型开辟新的方向。

Oct, 2024

从像素到符号：量化视觉模态上的字节对编码

本文解决了多模态大型语言模型在视觉和文本信息整合中的对齐问题。我们提出了一种创新的图像标记器，通过将字节对编码(BPE)原则应用于视觉数据，直接将结构先验信息融入图像符号，实现了更有效的多模态学习和推理。实验证明，该方法显著提升了模型的多模态理解能力，并展现出良好的可扩展性。

Oct, 2024

ε-VAE：去噪作为视觉解码

本研究解决了现有视觉tokenization方法中重建过程的单一性问题，提出将去噪视为解码的新视角。通过用扩散过程替换传统解码器，该方法迭代性地精炼噪声以恢复原始图像，从而提高了图像生成和压缩的效果。研究表明，该方法在重建和生成质量上优于当前最先进的自编码方法。

Oct, 2024

多维字节对编码：缩短序列以改善视觉数据生成

本研究解决了视觉数据标记过程中缺乏全球内容感知的问题，提出了一种将字节对编码从一维扩展到多维的新方法。通过计算频繁的标记对并用新标记替换它们，研究表明该方法可以减少序列长度并提高 Transformer 在视觉数据上的训练与推理性能。更重要的是，这种无损的预处理步骤适用于大型数据集，具有显著的计算效率提升。

Nov, 2024