关于大型多模型模型中 OCR 的隐秘之谜

May, 2023

关于大型多模型模型中 OCR 的隐秘之谜

On the Hidden Mystery of OCR in Large Multimodal Models

Yuliang Liu, Zhang Li, Hongliang Li, Wenwen Yu, Mingxin Huang...

TL;DR该论文通过对现有公开的多模态模型进行综合研究，评估它们在文本识别、基于文本的视觉问题回答和关键信息提取等任务中的性能，发现这些模型主要依赖于语义理解进行字识别，对单个字符形状的感知较差，同时对文本长度漠不关心，无法有效检测图像中的细粒度特征，在传统文本任务中尚无法与领域特定方法相媲美，面临更大的挑战。

Abstract

Large models have recently played a dominant role in natural language processing and multimodal vision-language learning. It remains less explored about their efficacy in text-related visual tasks. We conducted a comprehensive study of existing publicly available multimodal models, eva

multimodal models text recognition visual question answering information extraction semantic understanding

发现论文，激发创造

大型语言模型为文本丰富的 VQA 带来的优势

基于文本识别的图像视觉问答是一个跨模态任务，需要图像理解和文本识别。本文研究了基于 LLM 方法在解决此问题时的优势和瓶颈，并通过整合 OCR 模块和 MLLM 发现多数 MLLM 可以理解 OCR 信息，为训练保留 LLM 能力提供了启示。

Nov, 2023

基于文本和图像的多模态深度网络文档分类

本文介绍了一种多模态神经网络，结合了 OCR 提取的文本和图像信息，来对文献图像进行分类。该方法在 Tobacco3482 和 RVL-CDIP 数据集上的准确率提高了 3%。

Jul, 2019

TextMonkey: 一个无需 OCR 的大型多模态模型用于理解文档

我们介绍了 TextMonkey，一个大型多模态模型（LMM），该模型针对以文本为中心的任务，包括文档问题回答（DocVQA）和场景文本分析。通过采用零初始化的 Shifted Window Attention，我们在更高的输入分辨率下实现了跨窗口连接，并稳定了早期训练；我们假设图像可能包含冗余的标记，通过使用相似性过滤显著的标记，我们不仅可以简化标记长度，还可以提高模型的性能。此外，通过扩展模型的能力，包括文本定位和基准化，并将位置信息融入响应中，我们增强了可解释性并减少了产生虚幻结果的情况。另外，TextMonkey 可以进行微调，以具备理解点击截图命令的能力。总体而言，我们的方法显著提升了在各种基准数据集上的性能，尤其在 OCRBench 上获得了 561 分的分数，超过了先前用于文档理解的开源大型多模态模型。代码将在此 URL 发布。

Mar, 2024

语言空间中的图像：探索大语言模型在视觉和语言任务中的适用性

本篇文章研究了如何通过联合对话模型和语言模型使其能够有效地处理视觉信息，解决了在有限样本时视觉 - 语言任务的问题，使输出更易于解释。

May, 2023

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的 MLLMs 奠定了基础。

Feb, 2024

探索 GPT-4V 的 OCR 能力：定量和深入评估

GPT-4V 综合评估了最近发布的大型多模态模型 (GPT-4V (ision)) 在光学字符识别 (OCR) 方面的能力，发现其在识别和理解拉丁内容方面表现良好，但在多语言情境和复杂任务中存在困难。基于这些观察，我们深入探讨了专门的 OCR 模型的必要性，以及充分利用预训练的通用 LMM 模型如 GPT-4V 来进行 OCR 下游任务的策略。该研究为未来 LMM 在 OCR 领域的研究提供了重要参考。

Oct, 2023

增强视觉模型以实现对文本密集内容的理解和交互

增强视觉模型对包含大量文本信息的图像进行理解和学习的能力，通过数据预处理、微调和模型评估等方法，在集成 CLIP 和文本嵌入模型的视觉聊天应用中取得了 96.71% 的精度，旨在提升复杂视觉文本数据的跨模态人工智能理解能力。

May, 2024

图像 - 文本多模型综述

在人工智能领域的演变环境中，图像与文本信息的融合已成为一个关键的领域，引发了图像 - 文本多模态模型的出现。本文全面回顾了图像 - 文本多模态模型的发展和现状，探讨了其应用价值、挑战和潜在研究方向。通过细分演化阶段，提出了三个不同阶段的分类，根据其引入时间和对学科的影响。此外，根据任务在学术领域的重要性和普及性，对图像 - 文本多模态模型相关任务进行了五个主要类型的分类，阐明了每个类别内的最新进展和关键技术。尽管这些模型取得了显著成就，但仍存在许多挑战和问题。本文深入探讨了图像 - 文本多模态模型固有的挑战和限制，促进了未来研究方向的探索。我们的目标是提供对图像 - 文本多模态模型研究现状的全面概述，并为未来学术工作提供有价值的参考。我们邀请广大学术社区共同合作，推进图像 - 文本多模态模型社区的发展。

Sep, 2023

面向多模态视觉语言模型生成非通用文本

本文主要介绍了一种将人名加入生成文本的新方法，通过使用 OCR 识别图像中的文字并 fine-tuning 预训练模型，我们的方法在生成文本的时候自然地加入了人名信息。为了达到这个目的，我们修改了之前的多模态框架，接受来自任意数量的辅助分类器提供的相关信息。同时，我们创建了一个新的图像 - 标题数据集，名为 PAC，这个数据集包含了一些知名人物的图像和对这些图像的描述，这些描述中包含了人名。

Jul, 2022

大规模多模态预训练模型：综述

本文综述了预训练大型多模态模型的背景、任务定义、挑战、优势以及验证方式，并重点讨论了数据、目标、网络结构、知识增强等方面。此外，文章还给出了模型参数和结果的可视化和分析，并指出了未来的可能研究方向。

Feb, 2023