关于大型多模型模型中 OCR 的隐秘之谜
基于文本识别的图像视觉问答是一个跨模态任务,需要图像理解和文本识别。本文研究了基于 LLM 方法在解决此问题时的优势和瓶颈,并通过整合 OCR 模块和 MLLM 发现多数 MLLM 可以理解 OCR 信息,为训练保留 LLM 能力提供了启示。
Nov, 2023
本文介绍了一种多模态神经网络,结合了 OCR 提取的文本和图像信息,来对文献图像进行分类。该方法在 Tobacco3482 和 RVL-CDIP 数据集上的准确率提高了 3%。
Jul, 2019
我们介绍了 TextMonkey,一个大型多模态模型(LMM),该模型针对以文本为中心的任务,包括文档问题回答(DocVQA)和场景文本分析。通过采用零初始化的 Shifted Window Attention,我们在更高的输入分辨率下实现了跨窗口连接,并稳定了早期训练;我们假设图像可能包含冗余的标记,通过使用相似性过滤显著的标记,我们不仅可以简化标记长度,还可以提高模型的性能。此外,通过扩展模型的能力,包括文本定位和基准化,并将位置信息融入响应中,我们增强了可解释性并减少了产生虚幻结果的情况。另外,TextMonkey 可以进行微调,以具备理解点击截图命令的能力。总体而言,我们的方法显著提升了在各种基准数据集上的性能,尤其在 OCRBench 上获得了 561 分的分数,超过了先前用于文档理解的开源大型多模态模型。代码将在此 URL 发布。
Mar, 2024
本篇文章研究了如何通过联合对话模型和语言模型使其能够有效地处理视觉信息,解决了在有限样本时视觉 - 语言任务的问题,使输出更易于解释。
May, 2023
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的 MLLMs 奠定了基础。
Feb, 2024
GPT-4V 综合评估了最近发布的大型多模态模型 (GPT-4V (ision)) 在光学字符识别 (OCR) 方面的能力,发现其在识别和理解拉丁内容方面表现良好,但在多语言情境和复杂任务中存在困难。基于这些观察,我们深入探讨了专门的 OCR 模型的必要性,以及充分利用预训练的通用 LMM 模型如 GPT-4V 来进行 OCR 下游任务的策略。该研究为未来 LMM 在 OCR 领域的研究提供了重要参考。
Oct, 2023
增强视觉模型对包含大量文本信息的图像进行理解和学习的能力,通过数据预处理、微调和模型评估等方法,在集成 CLIP 和文本嵌入模型的视觉聊天应用中取得了 96.71% 的精度,旨在提升复杂视觉文本数据的跨模态人工智能理解能力。
May, 2024
在人工智能领域的演变环境中,图像与文本信息的融合已成为一个关键的领域,引发了图像 - 文本多模态模型的出现。本文全面回顾了图像 - 文本多模态模型的发展和现状,探讨了其应用价值、挑战和潜在研究方向。通过细分演化阶段,提出了三个不同阶段的分类,根据其引入时间和对学科的影响。此外,根据任务在学术领域的重要性和普及性,对图像 - 文本多模态模型相关任务进行了五个主要类型的分类,阐明了每个类别内的最新进展和关键技术。尽管这些模型取得了显著成就,但仍存在许多挑战和问题。本文深入探讨了图像 - 文本多模态模型固有的挑战和限制,促进了未来研究方向的探索。我们的目标是提供对图像 - 文本多模态模型研究现状的全面概述,并为未来学术工作提供有价值的参考。我们邀请广大学术社区共同合作,推进图像 - 文本多模态模型社区的发展。
Sep, 2023
本文主要介绍了一种将人名加入生成文本的新方法,通过使用 OCR 识别图像中的文字并 fine-tuning 预训练模型,我们的方法在生成文本的时候自然地加入了人名信息。为了达到这个目的,我们修改了之前的多模态框架,接受来自任意数量的辅助分类器提供的相关信息。同时,我们创建了一个新的图像 - 标题数据集,名为 PAC,这个数据集包含了一些知名人物的图像和对这些图像的描述,这些描述中包含了人名。
Jul, 2022
本文综述了预训练大型多模态模型的背景、任务定义、挑战、优势以及验证方式,并重点讨论了数据、目标、网络结构、知识增强等方面。此外,文章还给出了模型参数和结果的可视化和分析,并指出了未来的可能研究方向。
Feb, 2023