DocPedia: 在频域释放大型多模态模型的能力，实现多功能文档理解

Nov, 2023

DocPedia: 在频域释放大型多模态模型的能力，实现多功能文档理解

DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding

Hao Feng, Qi Liu, Hao Liu, Wengang Zhou, Houqiang Li...

TL;DRDocPedia 是一种新型的大型多模态模型，用于 OCR-free 文档理解，能够处理高分辨率图像。通过在频域而不是像素空间中直接处理视觉输入，DocPedia 能够利用有限数量的视觉标记捕捉更多的视觉和文本信息。通过开发双阶段训练策略和丰富的训练任务指导 / 注释，我们不断增强模型的感知和理解能力，实验证实了联合学习感知和理解任务的互利益。结果进一步证明了我们的 DocPedia 相比其他方法的有效性和优越性能。

Abstract

This work presents docpedia, a novel large multimodal model (LMM) for versatile ocr-free document understanding, capable of parsing images

docpedia multimodal model ocr-free document understanding dual-stage training strategy perception and comprehension tasks

发现论文，激发创造

UniDoc：一种用于同时文本检测、识别、标定和理解的通用大型多模态模型

在大型语言模型（LLMs）时代，我们介绍了一种名为 UniDoc 的新型多模态模型，该模型具备文本检测和识别能力，并通过任务之间的有益互动来提升整体性能。利用大规模指令遵循数据集进行统一的多模态指导调优，实验结果表明 UniDoc 在多个挑战性基准测试中取得了最先进的成绩，是第一个能够同时进行文本检测、识别、定位和理解的大型多模态模型。

Aug, 2023

mPLUG-DocOwl: 模块化的多模态大型语言模型对于文档理解

我们提出了基于 mPLUG-Owl 的 mPLUG-DocOwl，通过联合训练语言、视觉和文档指令调优数据集的统一指令调优策略，增强了 OCR-free 文档理解能力，并构建了用于比较模型能力的 OCR-free 文档指令理解评估集 LLMDoc。实验结果表明，我们的模型优于现有的多模型模型，在不同下游任务上具有良好的泛化能力。

Jul, 2023

关于大型多模型模型中 OCR 的隐秘之谜

该论文通过对现有公开的多模态模型进行综合研究，评估它们在文本识别、基于文本的视觉问题回答和关键信息提取等任务中的性能，发现这些模型主要依赖于语义理解进行字识别，对单个字符形状的感知较差，同时对文本长度漠不关心，无法有效检测图像中的细粒度特征，在传统文本任务中尚无法与领域特定方法相媲美，面临更大的挑战。

May, 2023

TextMonkey: 一个无需 OCR 的大型多模态模型用于理解文档

我们介绍了 TextMonkey，一个大型多模态模型（LMM），该模型针对以文本为中心的任务，包括文档问题回答（DocVQA）和场景文本分析。通过采用零初始化的 Shifted Window Attention，我们在更高的输入分辨率下实现了跨窗口连接，并稳定了早期训练；我们假设图像可能包含冗余的标记，通过使用相似性过滤显著的标记，我们不仅可以简化标记长度，还可以提高模型的性能。此外，通过扩展模型的能力，包括文本定位和基准化，并将位置信息融入响应中，我们增强了可解释性并减少了产生虚幻结果的情况。另外，TextMonkey 可以进行微调，以具备理解点击截图命令的能力。总体而言，我们的方法显著提升了在各种基准数据集上的性能，尤其在 OCRBench 上获得了 561 分的分数，超过了先前用于文档理解的开源大型多模态模型。代码将在此 URL 发布。

Mar, 2024

DocLLM: 多模态文档理解的自适应生成语言模型

研究论文通过设计 DocLLM 模型，结合文本语义和空间布局，以有效地理解企业文件的丰富语义，摆脱昂贵的图像编码器，侧重于使用边界框信息来处理不规则布局和异构内容的视觉文件，通过预训练和微调，优于当前最优模型在多个任务中的性能，并且对于先前未见过的数据集具有较好的泛化能力。

Dec, 2023

简化多模态：使用通用领域大型语言模型在放射学中解决多模态挑战的单模态方法

在本文中，我们介绍了 MID-M 这一创新框架，利用通用领域的大规模语言模型（LLM）的上下文学习能力，通过图像描述来处理多模态数据，其在性能上与任务特定的精调 LLMs 和其他通用领域的 LLMs 相当或更为出色，无需广泛域特定训练或多模态数据的预训练，参数更少，突出了利用通用领域 LLMs 进行领域特定任务的潜力，并为传统 LMM 发展提供了可持续和经济高效的替代方案。此外，MID-M 对于数据质量问题的稳健性证明了其在实际医学领域应用中的实用性。

Apr, 2024

探索大型多模型模型对于密集文本的能力

本研究通过在 DT-VQA 数据集上对 GPT4V、Gemini 和不同的开源 LMM 进行全面评估，揭示了它们的优点和缺点，并评估了 LMM 的两种策略：prompt engineering 和 downstream fine-tuning。研究发现，即使使用自动标记的训练数据集，模型性能也能显著提高，希望本研究能促进 LMM 在密集文本任务中的研究。

May, 2024

PeFoMed: 多模态大语言模型的参数高效微调在医学视觉问答中的应用

这篇论文提出了一个参数高效的框架，专门用于调整针对 Med-VQA 应用的多模式大型语言模型，并通过公共基准数据集进行了实证验证，结果显示我们的模型在封闭问题上的整体准确率达到了 81.9％，并且在准确率上超过 GPT-4v 模型 26％的显著优势。

Jan, 2024

WuDaoMM：大规模多模态数据集用于预训练模型

本篇论文介绍了一种大规模多模态库 WuDaoMM 用于 Vision-Language 解决方案的预训练模型，其中包含了超过 650M 的弱相关和强相关的图片 - 文本对，并经过实验证明，WuDaoMM 是一种高效的 VLPMs 数据集。

Mar, 2022

利用视觉检测模型增强多模态大型语言模型：实证研究

通过融合先进的目标检测和光学字符识别模型，我们在多模态大型语言模型的基础上进行了实证研究，以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法，该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与 LLaVA-1.5、DINO 和 PaddleOCRv2 等模型进行系统实验，我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能，而且保持了其原始优势。结果表明，改进后的多模态大型语言模型在 10 个基准测试中有 9 个超过了先进模型，在规范化的平均得分上取得了最高 12.99% 的提升，标志着多模态理解领域的重大进展。通过发布我们的代码，我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。

Jan, 2024