Nov, 2023

提升文档理解能力的研究:基于 MLLMs 的文本定位探索

TL;DR在文档理解领域,本文提出了一种文本定位的文档理解模型,命名为 TGDoc,通过增强多模态大型语言模型(MLLMs)的能力来识别图像内文本的空间位置,以提高文本内容解释的准确性,从而提高对文本丰富图像的理解能力。实验证据表明,文本定位方法在多个文本丰富基准测试中取得了最先进的性能,验证了我们方法的有效性。