May, 2024

CREPE: 坐标感知的端到端文档解析器

TL;DR通过 OCR-free 序列生成模型,本研究提出了 Coordinate-aware End-to-end Document Parser (CREPE) 模型,用于图像文档理解。该模型不仅可以从文档图像中解析文本,还可以提取文本的空间坐标,并通过引入特殊标记和基于标记的坐标解码实现这些功能。实验结果表明 CREPE 在文档解析任务上取得了最新的性能,其适应性还体现在布局分析、文档视觉问答等其他文档理解任务中。该模型不仅减少了现有依赖 OCR 方法的错误传播问题,还显著增强了序列生成模型的功能,引领了文档理解研究的新时代。