DocKylin：一种用于视觉文档理解的大型多模型，具有高效的视觉精简能力

Jun, 2024

DocKylin：一种用于视觉文档理解的大型多模型，具有高效的视觉精简能力

DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming

Jiaxin Zhang, Wentao Yang, Songxuan Lai, Zecheng Xie, Lianwen Jin

TL;DRDocKylin 是一种基于文档的多模态大型语言模型，使用自适应像素精简和动态标记精简模块，以降低视觉文档理解任务中的标记序列长度，并在各种评测中展现了良好的性能。

Abstract

Current multimodal large language models (MLLMs) face significant challenges in visual document understanding (VDU) tasks due to the high resolution, dense text, and complex layouts typical of document images. Th

multimodal large language models visual document understanding dockylin adaptive pixel slimming dynamic token slimming

发现论文，激发创造

DocLLM: 多模态文档理解的自适应生成语言模型

研究论文通过设计 DocLLM 模型，结合文本语义和空间布局，以有效地理解企业文件的丰富语义，摆脱昂贵的图像编码器，侧重于使用边界框信息来处理不规则布局和异构内容的视觉文件，通过预训练和微调，优于当前最优模型在多个任务中的性能，并且对于先前未见过的数据集具有较好的泛化能力。

Dec, 2023

DUBLIN -- 语言 - 图像网络理解文档

通过预训练 DUBLIN 模型，利用文档图像中的空间和语义信息，包括 Masked Document Content Generation Task、Bounding Box Task 和 Rendered Question Answering Task，实现对象检测和文档图像理解，在各项基准测试中优于现有模型，尤其在 WebSRC 数据集，其 EM 值和 F1 值分别为 77.75 和 84.25，与文本型 SOTA 方法具有可比性。

May, 2023

大型视觉 - 语言模型中利用对比学习增强视觉文档理解

利用对比学习框架 DoCo，该研究填补了大型视觉 - 语言模型在处理富文本场景中的细粒度特征缺失问题，提高了对文本丰富的文档的视觉表示，并在多个视觉文档理解基准上取得了优越的性能。

Feb, 2024

LayoutLLM：针对视觉丰富文档理解的大语言模型指令调整

本文提出了 LayoutLLM，一种更灵活的文档分析方法，用于理解图像化文档。通过利用现有研究在文档图像理解和大规模语言模型的优势，通过与多模态指令数据集进行微调，提出的模型在单个模型中执行对文档图像的理解，并通过实验证明在各种文档分析任务中改进了基线模型。

Mar, 2024

LLaVA-PruMerge: 高效大型多模态模型的自适应令牌减少

通过减少视觉标记并合并相关标记，我们提出了一种自适应的视觉标记压缩方法 PruMerge，可以显著减少可视标记的数量并保持相似的模型性能。

Mar, 2024

Bi-VLDoc: 面向视觉丰富的文档理解的双向视觉 - 语言建模

本文提出了一种名为 Bi-VLDoc 的预训练模型，该模型通过双向视觉语言监督策略和视觉语言混合注意机制来完全探索和利用视觉和语言之间的交互作用，以学习具有更丰富语义的更强的跨模态文档表示，并在模型效果上显著优于现有模型，包括文档理解、文档分类和文档视觉问答等领域。

Jun, 2022

Wukong-Reader：用于细粒度视觉文档理解的多模态预训练

本文提出的 Wukong-Reader 通过各种新的预训练目标进行训练，以利用文档文本线中嵌套的结构知识。本文还介绍了文本线 - 区域对比学习、遮罩区域建模和文本线网格匹配等方法，以增强文本线的视觉和布局表示。实验结果表明，我们的 Wukong-Reader 在各种视觉文档理解任务中具有卓越的性能，具有有前途的定位能力。

Dec, 2022

大型语言模型的良好视觉分词器的特点是什么？

通过实证研究，我们讨论了将主流的预训练方法应用于视觉编码器以构建良好的视觉分词器，以使大型语言模型（LLM）成为强大的多模态大语言模型（MLLM）。我们发现，GVT 在不引入额外的参数和任务特定的微调的情况下，展现出了在多个尺度上的强大视觉理解能力，特别是在视觉问答、图像字幕、对象计数和多类别识别等细粒度视觉理解任务上具有优异的性能。

May, 2023

HRVDA：高分辨率视觉文档助手

利用大量的训练数据，本文提出了一种高分辨率可视文件助手（HRVDA），该模型利用内容过滤机制和指令过滤模块分别过滤不确定内容和指令的可视标记，从而在高分辨率图像的模型训练和推理方面取得高效的性能，同时在多个文档理解数据集上实现了最先进的性能。

Apr, 2024

动态离散视觉标记的统一语言 - 视觉预训练

最近，大型语言模型的显著进展激发了研究人员将其非凡的推理能力转移到多个模态的数据上。本文通过在统一的表示中同时表达视觉和语言，突破了仅以视觉内容作为提示并专注于优化文本生成过程的限制。通过一个将非语言图像转换为 LLM 可以阅读的一系列离散标记的视觉分词器，LaVIT (Language-VIsion Transformer) 可以在统一的生成学习范式下无差别地处理图像和文本。在网上规模图像 - 文本语料库上预训练的 LaVIT 具有令人印象深刻的多模态理解能力。广泛的实验表明，它在下游任务上的性能超过现有模型很多。我们的代码和模型将在此 https URL 上提供。

Sep, 2023