Mar, 2022

DiT:文档图像 Transformer 的自监督预训练

TL;DR本文提出了 DiT,一种利用大规模未标记文本图像进行自监督预训练的文档图像变压器模型,成为视觉文档 AI 任务的骨干网络,在文档图像分类、文档布局分析、表格检测以及 OCR 的文本检测等诸多任务中取得了最新的最佳结果。