Oct, 2024

MMDocBench:大型视觉语言模型的细粒度视觉文档理解基准

TL;DR该研究针对大型视觉语言模型(LVLMs)在细粒度视觉理解方面评估不足的问题,提出了MMDocBench,一个综合评估这些模型在文档图像理解能力的新基准。通过定义15个主要任务,涵盖各种文档图像,包括研究论文和财务报告,研究发现LVLMs在不同任务和文档类型上的优势和劣势,为改进其性能提供了重要依据。