Apr, 2024

TextHawk:探索多模态大型语言模型的高效细粒度感知

TL;DRTextHawk 是一种为面向文档任务设计的多模态大型语言模型,通过引入四个专门的组件实现高效的细粒度视觉感知,捕捉文档图像的层级结构和语义关系,表现出在细粒度文档感知和一般能力上的有效性和优越性。