Apr, 2024
TextHawk:探索多模态大型语言模型的高效细粒度感知
TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models
Ya-Qi Yu, Minghui Liao, Jihao Wu, Yongxin Liao, Xiaoyu Zheng...
TL;DRTextHawk 是一种为面向文档任务设计的多模态大型语言模型,通过引入四个专门的组件实现高效的细粒度视觉感知,捕捉文档图像的层级结构和语义关系,表现出在细粒度文档感知和一般能力上的有效性和优越性。