DiT：文档图像 Transformer 的自监督预训练

Mar, 2022

DiT：文档图像 Transformer 的自监督预训练

DiT: Self-supervised Pre-training for Document Image Transformer

Junlong Li, Yiheng Xu, Tengchao Lv, Lei Cui, Cha Zhang...

TL;DR本文提出了 DiT，一种利用大规模未标记文本图像进行自监督预训练的文档图像变压器模型，成为视觉文档 AI 任务的骨干网络，在文档图像分类、文档布局分析、表格检测以及 OCR 的文本检测等诸多任务中取得了最新的最佳结果。

Abstract

Image Transformer has recently achieved significant progress for natural image understanding, either using supervised (ViT, DeiT, etc.) or self-supervised (BEiT, MAE, etc.) pre-training techniques. In this paper, we propose \textbf{DiT}, a self-supervised pre-trained \textbf{D}ocument \textbf{I}mage \textbf{T}ransformer model using large-scale unlabeled text

document image transformer self-supervised pre-training document ai tasks state-of-the-art results text detection for ocr

发现论文，激发创造

BEiT: 图像 Transformer 的 BERT 预训练

本研究介绍了一种名为 BEiT 的自监督视觉表示模型，使用双向编码器表示图像转换器并进行了预训练，效果显著。

Jun, 2021

SiT：自监督视觉 Transformer

本文提出了一种名为 Self-supervised vIsion Transformers (SiT) 的模型，使用多种自监督训练机制进行预训练，通过线性分类器对其学习特征进行评估，并在小规模数据集上进行下游分类任务，结果表明这种模型在自我监督学习上有很好的效果。

Apr, 2021

SD-DiT：释放扩散变换器中自监督辨别的力量

通过引入自监督区分知识来增强扩散变压器 (Diffusion Transformer, DiT) 的训练效果，并在 ImageNet 数据集上进行了广泛实验，实现了训练成本和生成能力之间的竞争平衡。

Mar, 2024

DeiT III：ViT 的复仇

本文改进了一种用于训练 Vision Transformer (ViT) 的全监督训练方法，通过仅使用三种数据增强方式，此方法优于之前的全监督训练方法，并且在图像分类、迁移学习和语义分割等任务中表现出色，同时也为 ViT 的自我监督方法提供了更好的基线。

Apr, 2022

TerDiT: 基于 Transformer 的三元扩散模型

我们提出了 TerDiT，一种针对具有 transformer 的三态扩散模型的量化感知训练（QAT）和有效部署方案，致力于探索大规模 DiT 模型的高效部署策略，展示了从头开始训练极低比特扩散变压器模型的可行性，同时保持与全精度模型相比有竞争力的图像生成能力。

May, 2024

DiT: 高效的视觉变压器与动态令牌路由

提出了一种数据相关的令牌路由策略用于图像令牌的动态视觉转换器 (DiT)，以适应对象尺度和视觉识别的变化，并通过选择多路径特征传播来精心调整图像表达的对象尺度和视觉识别的影响，从而实现更好的性能和良好的复杂度 / 准确度平衡。

Aug, 2023

ImageBERT：利用大规模弱监督图像 - 文本数据的跨模态预训练

本文提出了一种新的视觉 - 语言预训练模型 ——ImageBERT，用于图像 - 文本联合嵌入，该模型基于 Transformer，可以将不同的模态作为输入，并建模它们之间的关系。通过多阶段的预训练策略，可以提高预训练质量，最终在图像检索和文本检索任务上获得了新的最先进结果。

Jan, 2020

强化学习微调的视觉 - 编码转换器用于 UI 转码生成

本文提出了一种新颖的视觉 - 代码转换器方法，并探索了 Actor-Critic 微调作为提高基线的一种方法，用于从屏幕截图生成高质量代码片段，其性能表现突出，在自动化度量方面表现强大。

May, 2023

LightningDOT：用于实时图像文本检索的视觉 - 语义嵌入的预训练

本文提出了一种名为 LightningDOT 的方法，通过三个新颖的学习目标进行预训练，在不损失准确性的情况下通过去除跨模态注意力实现图像文本检索的加速，有效提高了检索速度，其中 LightningDOT 在多个检索基准测试中均取得了新的最优状态，超过了消耗 1000 倍计算时间的现有预训练模型。

Mar, 2021

图像作为外语：BEiT 预训练模型用于所有视觉和视觉语言任务

本文介绍了通用的多模态基础模型 BEiT-3，通过三个方面的改进：骨干架构、预训练任务和模型扩展，实现了在视觉和视觉语言任务上的最先进转移性能。

Aug, 2022