TokenUnify: 可扩展的自回归视觉预训练与混合 Token 预测
本研究提出了一种名为 MaPeT 的新型自监督预训练方法,旨在提高基于视觉任务的性能并解决输入噪声和不一致性问题,实验结果表明其在 ImageNet 数据集上具有与竞争对手相媲美的性能。
Jun, 2023
通过将图像嵌入到文本令牌的自回归预测过程中,我们提出了一种将目标识别作为下一个令牌预测的方法。我们通过自定义非因果注意掩码来将预测过程与自回归相结合,其中包括将不同标签的令牌建模为独立,并将图像令牌视为前缀。我们提出了一种高效的一次性采样方法来同时并行采样多个标签的令牌,并在推理过程中通过它们的概率对生成的标签进行排名。为了进一步提高效率,我们提出了一个简单的策略,通过简单丢弃预训练语言模型的中间块来构建一个紧凑的解码器。这种方法在保持整体模型性能的同时具有显著的效率优势。
Dec, 2023
大型语言模型在逻辑和数学推理方面显示出令人瞩目的能力,使它们能够解决复杂的任务。本文提出了一个理论框架来研究自回归的下一个标记预测器。我们证明,即使是简单的模型,如线性的下一个标记预测器在 Chain-of-Thought(CoT)数据上训练,也能有效地近似于图灵机计算的任何函数。我们引入了一个新的复杂度度量方法 —— 长度复杂度,它衡量了实现某个目标函数所需的 CoT 序列中的中间标记数,并分析了长度复杂度与其他复杂度概念之间的相互关系。最后,我们通过实验证明,简单的下一个标记预测器,如线性网络和浅层多层感知器(MLP),在文本生成和算术任务中显示出非平凡的性能。我们的结果表明,语言模型的强大能力很大程度上归功于自回归的下一个标记训练方案,而不一定取决于特定的架构选择。
Sep, 2023
通过使用自监督学习和空间自适应卷积技术,我们构建了一个通用的医学图像处理模型,可以高效处理各种医学图像数据,并在医学图像分类和分割任务上表现出更好的性能和标签效率。
Dec, 2023
本文提出了统一遮蔽(Uniform Masking,UM)技术,将其成功应用于金字塔式视觉变换器(Pyramid-based ViTs)的 MAE 预训练中,命名为 UM-MAE。UM 技术包括均匀抽样(Uniform Sampling,US)和辅助遮蔽(Secondary Masking,SM),大大提高了金字塔式 ViTs 的预训练效率和下游任务的微调性能。
May, 2022
最近,大型语言模型的显著进展激发了研究人员将其非凡的推理能力转移到多个模态的数据上。本文通过在统一的表示中同时表达视觉和语言,突破了仅以视觉内容作为提示并专注于优化文本生成过程的限制。通过一个将非语言图像转换为 LLM 可以阅读的一系列离散标记的视觉分词器,LaVIT (Language-VIsion Transformer) 可以在统一的生成学习范式下无差别地处理图像和文本。在网上规模图像 - 文本语料库上预训练的 LaVIT 具有令人印象深刻的多模态理解能力。广泛的实验表明,它在下游任务上的性能超过现有模型很多。我们的代码和模型将在此 https URL 上提供。
Sep, 2023
本研究介绍了一种名为 UniMASK 的框架,利用序列掩蔽的方式,提供了一种统一的方式来指定可以用于多种不同序列决策任务的模型。经过微调后,我们的 UniMASK 模型能够在许多任务上表现非常好,甚至比单任务模型表现更好。
Nov, 2022
本文提出了一种用于视觉任务的通用模型,通过软代币和掩膜增强等技术,实现了离散 / 固定长度和连续 / 可变长度输出的两种典型视觉任务的统一输出空间,可成功执行目标实例分割和深度估计任务,并在特定任务的 NYUv2 深度估计基准测试中创造了新的记录。
Jan, 2023
Contrastive pre-training techniques like CLIP are computationally demanding, while Unmasked Token Alignment (UTA) leverages CLIP models to enhance vision-language representations with a Vision Transformer (ViT) that does not require training on image-text pairs, outperforming existing methods.
May, 2024