May, 2025
基于上下文的视觉文档理解的自适应标记语言生成
Adaptive Markup Language Generation for Contextually-Grounded Visual
Document Understanding
TL;DR本研究解决了视觉文档理解领域中有效整合视觉感知与文本理解的挑战,特别是在多样化的复杂文档布局下。提出了一种创新管道,通过自适应生成标记语言(如Markdown、JSON等)建立结构化文档表示,并验证了该模型在视觉文档理解基准测试中显著优于现有模型,从而提升了对复杂视觉场景的推理和理解能力。