Jun, 2024
DocKylin:一种用于视觉文档理解的大型多模型,具有高效的视觉精简能力
DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming
Jiaxin Zhang, Wentao Yang, Songxuan Lai, Zecheng Xie, Lianwen Jin
TL;DRDocKylin 是一种基于文档的多模态大型语言模型,使用自适应像素精简和动态标记精简模块,以降低视觉文档理解任务中的标记序列长度,并在各种评测中展现了良好的性能。