细粒度多页文档理解的任意焦点

May, 2024

Focus Anywhere for Fine-grained Multi-page Document Understanding

Chenglong Liu, Haoran Wei, Jinyue Chen, Lingyu Kong, Zheng Ge...

TL;DR本文提出了一种名为 Fox 的高效流水线、混合数据和调优策略，以推动 LVLM 在单页 / 多页文档上的细粒度文档理解，引入新颖任务以提升文档理解，并通过多模式视觉词汇和跨视觉数据的应用来实现多种视觉词汇和文档内图像理解的全面反应。

Abstract

Modern lvlms still struggle to achieve fine-grained document understanding, such as OCR/translation/caption for regions of interest to the

lvlms document understanding fine-grained fox visual hybrid knowledge

发现论文，激发创造

双重焦点：在多模态大型语言模型中整合宏观和微观视角

通过在多模态大型语言模型中引入双重聚焦机制，该研究提出了一种新颖的框架，能够提升视觉 - 语言任务的性能，并在综合考虑全局、细节和综合因素的任务中展现出卓越优势。利用来自宏观和微观视角的图像信息和问题响应，该模型通过识别合适的子区域进行深入分析，从而实现对局部区域的详细问题的解答能力，从而减少了大型语言模型中的幻觉现象，并提高了各种视觉 - 语言任务的性能。

Feb, 2024

浏览和专注：通过 prior-LLM 上下文融合理解多模态内容

通过两阶段的浏览和集中的方法，在 Mulitmodal Large Language Models 中集成多模态上下文信息，改善对多图像输入的理解，显著提高准确性。

Feb, 2024

LayoutLLM：针对视觉丰富文档理解的大语言模型指令调整

本文提出了 LayoutLLM，一种更灵活的文档分析方法，用于理解图像化文档。通过利用现有研究在文档图像理解和大规模语言模型的优势，通过与多模态指令数据集进行微调，提出的模型在单个模型中执行对文档图像的理解，并通过实验证明在各种文档分析任务中改进了基线模型。

Mar, 2024

Finer: 大规模视觉语言模型中细粒度视觉概念识别的研究与增强

最近在指导的大型视觉语言模型方面取得的进展，使得模型能够轻松生成高层次的基于图像的解释。然而，我们的工作揭示了这些模型在细粒度的视觉分类方面的缺陷，并且我们提出了一个多粒度属性为中心的评估基准，用于评估大型视觉语言模型的细粒度视觉理解能力并提供显著改进的可解释性。

Feb, 2024

通用粗细视觉语言模型设计：万能任务大师

这篇研究论文介绍了 VistaLLM，一种能够处理视觉输入并统一各种视觉 - 语言任务的通用视觉系统，它利用指令调整的方法解决了在单一框架中集成分割、多图像输入和粗粒度任务的问题。通过使用说明的图像分词器提取压缩和精炼特征，以及使用梯度感知的自适应采样技术将二进制分割掩膜表示为序列，VistaLLM 显著提高了性能，并在广泛的任务中实现了领先的结果。

Dec, 2023

多页文档视觉问答使用自注意力评分机制

多页文档视觉问答任务的新方法和有效训练策略，利用视觉特征对文档页进行相关性评分，可在多页场景中提供与最新技术相媲美的性能，且对 GPU 资源需求较少。

Apr, 2024

在视觉 - 语言模型中实现交互式区域理解

通过引入具有明确区域建模能力的 RegionVLM 模型，并利用包含区域信息的 Localized Narratives 数据集，我们的实验表明，我们的单一通用模型不仅实现了交互式对话系统，还在各种零样本区域理解任务上展现出了卓越的性能，而不会损害其对全局图像的理解能力。

Mar, 2024

UReader：基于多模态大型语言模型的通用无 OCR 视觉智能语言理解

通过利用 Multimodal Large Language Model (MLLM) 的浅层文本识别能力，我们在较低的训练成本下，通过在广泛的视觉语境理解任务上联合微调，设计了 UReader 模型，实现了 OCR-free 模式下在 8 个视觉语境理解任务上的最新表现。

Oct, 2023

高效端到端视觉文档理解与根据聚类

通过小型的预训练图像到文本模型，我们在像素级视觉语言理解的端到端模型中学习选择性文本或布局识别和推理，取得了在信息图表、扫描文档和图像三个视觉文档理解基准中的一致性改进，超过直接预测答案的相似 Pix2Struct 模型 4% 以上。

Nov, 2023

通过布局结构建模增强视觉丰富文档的理解

我们提出了 GraphLayoutLM 模型，它利用布局结构图的建模将文档布局知识注入模型，使得模型能够理解文本元素的空间排列，以提高文档的理解能力，并在 FUNSD、XFUND 和 CORD 等基准测试中取得了最先进的结果。

Aug, 2023