TokenUnify: 可扩展的自回归视觉预训练与混合 Token 预测

May, 2024

TokenUnify: 可扩展的自回归视觉预训练与混合 Token 预测

TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction

Yinda Chen, Haoyuan Shi, Xiaoyu Liu, Te Shi, Ruobing Zhang...

TL;DRTokenUnify 是一种新型的预训练方法，通过整合随机标记预测、下一个标记预测和全部下一个标记预测的方法，减轻了视觉自回归中的累积误差，并在大规模电子显微镜图像数据集中表现出更好的可扩展性和分割性能。

Abstract

Autoregressive next-token prediction is a standard pretraining method for large-scale language models, but its application to vision tasks is hindered by the non-sequential nature of image data, leading to cumulative errors. Most vision models employ masked autoencoder (MAE) based pret

pretraining method tokenunify visual autoregression neuron segmentation scalability

发现论文，激发创造

视觉 Transformer 预训练中遮蔽和置换视觉令牌的学习

本研究提出了一种名为 MaPeT 的新型自监督预训练方法，旨在提高基于视觉任务的性能并解决输入噪声和不一致性问题，实验结果表明其在 ImageNet 数据集上具有与竞争对手相媲美的性能。

Jun, 2023

目标识别作为下一个令牌预测

通过将图像嵌入到文本令牌的自回归预测过程中，我们提出了一种将目标识别作为下一个令牌预测的方法。我们通过自定义非因果注意掩码来将预测过程与自回归相结合，其中包括将不同标签的令牌建模为独立，并将图像令牌视为前缀。我们提出了一种高效的一次性采样方法来同时并行采样多个标签的令牌，并在推理过程中通过它们的概率对生成的标签进行排名。为了进一步提高效率，我们提出了一个简单的策略，通过简单丢弃预训练语言模型的中间块来构建一个紧凑的解码器。这种方法在保持整体模型性能的同时具有显著的效率优势。

Dec, 2023

自回归下一个单词预测器是通用学习者

大型语言模型在逻辑和数学推理方面显示出令人瞩目的能力，使它们能够解决复杂的任务。本文提出了一个理论框架来研究自回归的下一个标记预测器。我们证明，即使是简单的模型，如线性的下一个标记预测器在 Chain-of-Thought（CoT）数据上训练，也能有效地近似于图灵机计算的任何函数。我们引入了一个新的复杂度度量方法 —— 长度复杂度，它衡量了实现某个目标函数所需的 CoT 序列中的中间标记数，并分析了长度复杂度与其他复杂度概念之间的相互关系。最后，我们通过实验证明，简单的下一个标记预测器，如线性网络和浅层多层感知器（MLP），在文本生成和算术任务中显示出非平凡的性能。我们的结果表明，语言模型的强大能力很大程度上归功于自回归的下一个标记训练方案，而不一定取决于特定的架构选择。

Sep, 2023

预训练通用医学图像变换器

通过使用自监督学习和空间自适应卷积技术，我们构建了一个通用的医学图像处理模型，可以高效处理各种医学图像数据，并在医学图像分类和分割任务上表现出更好的性能和标签效率。

Dec, 2023

统一蒙版：使用局部信息实现金字塔视觉 Transformer 的 MAE 预训练

本文提出了统一遮蔽（Uniform Masking，UM）技术，将其成功应用于金字塔式视觉变换器（Pyramid-based ViTs）的 MAE 预训练中，命名为 UM-MAE。UM 技术包括均匀抽样（Uniform Sampling，US）和辅助遮蔽（Secondary Masking，SM），大大提高了金字塔式 ViTs 的预训练效率和下游任务的微调性能。

May, 2022

动态离散视觉标记的统一语言 - 视觉预训练

最近，大型语言模型的显著进展激发了研究人员将其非凡的推理能力转移到多个模态的数据上。本文通过在统一的表示中同时表达视觉和语言，突破了仅以视觉内容作为提示并专注于优化文本生成过程的限制。通过一个将非语言图像转换为 LLM 可以阅读的一系列离散标记的视觉分词器，LaVIT (Language-VIsion Transformer) 可以在统一的生成学习范式下无差别地处理图像和文本。在网上规模图像 - 文本语料库上预训练的 LaVIT 具有令人印象深刻的多模态理解能力。广泛的实验表明，它在下游任务上的性能超过现有模型很多。我们的代码和模型将在此 https URL 上提供。

Sep, 2023

UT5：使用展开去噪预训练非自回归性 T5 模型

通过展开去噪并展示其在下游生成任务中的最先进结果，我们研究了 T5 模型的非自回归无监督预训练。

Nov, 2023

UniMASK: 顺序决策问题中的统一推理

本研究介绍了一种名为 UniMASK 的框架，利用序列掩蔽的方式，提供了一种统一的方式来指定可以用于多种不同序列决策任务的模型。经过微调后，我们的 UniMASK 模型能够在许多任务上表现非常好，甚至比单任务模型表现更好。

Nov, 2022

All in Tokens: 通过软式代币统一视觉任务输出空间

本文提出了一种用于视觉任务的通用模型，通过软代币和掩膜增强等技术，实现了离散 / 固定长度和连续 / 可变长度输出的两种典型视觉任务的统一输出空间，可成功执行目标实例分割和深度估计任务，并在特定任务的 NYUv2 深度估计基准测试中创造了新的记录。

Jan, 2023

增强视觉语言模型的未屏蔽令牌对齐

Contrastive pre-training techniques like CLIP are computationally demanding, while Unmasked Token Alignment (UTA) leverages CLIP models to enhance vision-language representations with a Vision Transformer (ViT) that does not require training on image-text pairs, outperforming existing methods.

May, 2024