Jun, 2024

DocKylin:一种用于视觉文档理解的大型多模型,具有高效的视觉精简能力

TL;DRDocKylin 是一种基于文档的多模态大型语言模型,使用自适应像素精简和动态标记精简模块,以降低视觉文档理解任务中的标记序列长度,并在各种评测中展现了良好的性能。