一幅图像对于重建与生成而言价值 32 个令牌
本文通过使用视觉 Transformer 在语义标记空间中密集地建模标记关系并减少卷积计算量,从而在 ImageNet top-1 和 LIP,COCO-stuff 图像分割测试上表现出了显着的优势。
Jun, 2020
通过引入 MAGVIT-v2 作为视觉分词器,本文展示了大型语言模型(LLMs)在图像和视频生成上优于扩散模型,并超越以前在视频压缩和动作识别任务中表现最佳的视频分词器。
Oct, 2023
基于小波变换的图像分词器提高了训练吞吐量并减少了 ImageNet 验证集的 top-1 误差率,同时为基于 ViT 模型设计提供了新的研究方向。
May, 2024
本文介绍了如何通过在 ViT 的输入层添加离散 token 的方法来提高其对全局信息的学习和对真实世界数据的泛化能力,并通过实验证明对于七个 ImageNet 鲁棒性基准测试,该改进方法能够让 ViT 的鲁棒性提高最多 12%,同时不影响在 ImageNet 上的性能表现。
Nov, 2021
使用预训练 Transformers 模型,结合 VQGAN 模型实现离散图像向量量化,进一步提高了图像生成和无监督表示学习的效率和准确性。同时,该模型还在 ImageNet 数据集上的线性探针准确性方面的表现优于同等规模的 Image GPT-L 和 Image GPT-XL 模型。
Oct, 2021
本文介绍了一种新的图像标记方案 —— 混合分辨率标记 —— 以及如何使用 Quadtree 算法和新的显著性评分器构建图像的代表通量,进而实现更好的图像分类。
Apr, 2023
本文提出了一种新的离散扩散概率模型优先级,通过使用无约束的 Transformer 架构作为骨干结构实现了向量量化标记的并行预测,从而促进了图像生成的全局一致性和多样性。
Nov, 2021
本文介绍了一种基于语义标记的 ViT 模型,可以用于图像分类以及物体检测和实例分割等任务,并通过对空间中的池化图像标记进行 attention 的方法,来取代大量的图像标记,从而实现了网络的降维升效。
Mar, 2023
提出了一种密集注意力的训练无关方法以加速稳定扩散推理的进行,通过关键和值令牌的降采样,在常见尺寸和高分辨率下可以将推理速度提高 2 倍或更多,证明了该方法在平衡高效吞吐量和保真度方面优于之前的方法。
Feb, 2024
本文提出了一种新的图像合成模型 ——MaskGIT,采用双向 transformer 解码器,通过学习预测随机遮罩的 tokens 并在推理时同时生成全部 tokens,迭代地改进图像以获得高保真度和高分辨率的生成图像,并在 ImageNet 数据集上优于现有模型,同时通过自回归解码加速达到 64 倍,还可轻松扩展到各种图像编辑任务中。
Feb, 2022