May, 2024

细粒度多页文档理解的任意焦点

TL;DR本文提出了一种名为 Fox 的高效流水线、混合数据和调优策略,以推动 LVLM 在单页 / 多页文档上的细粒度文档理解,引入新颖任务以提升文档理解,并通过多模式视觉词汇和跨视觉数据的应用来实现多种视觉词汇和文档内图像理解的全面反应。