Jul, 2024

一个框框相当于一个记号:在大型语言模型中交叉布局和文本以实现文档理解

TL;DR通过将OCR派生文本和空间布局与大型语言模型(LLM)相结合,并在LayTextLLM中交织布局和文本,可以显著提高文档理解任务的效果。LayTextLLM在布局和文本数据的交互中简化了操作,并在关键信息提取(KIE)和视觉问答(VQA)方面展示出更好的性能。