ECCVNov, 2021

无 OCR 文档理解变压器

TL;DR本文介绍了一种名为 “Donut” 的 OCR-free VDU 模型,使用 Transformer 作为简单有效的架构对文档图像进行全面理解,并采用交叉熵损失预训练,通过实验表明该模型在速度和准确性方面达到了各种 VDU 任务的最新表现。