ocr-free | BriefGPT - AI 论文速递

关键词ocr-free

搜索结果 - 4

UReader：基于多模态大型语言模型的通用无 OCR 视觉智能语言理解
通过利用 Multimodal Large Language Model (MLLM) 的浅层文本识别能力，我们在较低的训练成本下，通过在广泛的视觉语境理解任务上联合微调，设计了 UReader 模型，实现了 OCR-free 模式下在 8
PDF9 months ago
mPLUG-DocOwl: 模块化的多模态大型语言模型对于文档理解
我们提出了基于 mPLUG-Owl 的 mPLUG-DocOwl，通过联合训练语言、视觉和文档指令调优数据集的统一指令调优策略，增强了 OCR-free 文档理解能力，并构建了用于比较模型能力的 OCR-free 文档指令理解评估集 LLM
PDFa year ago
DocParser: 基于端到端的无 OCR 信息提取技术，用于含丰富视觉元素的文档
本文提出了基于 DocParser 的 OCR-free 端到端信息提取模型，不同于以往的方法，其能更好地提取具有区别性的字符特征，并在各种数据集上实现了最先进的结果，同时速度比以前的工作还要快。
PDFa year ago
ECCV无 OCR 文档理解变压器
本文介绍了一种名为 “Donut” 的 OCR-free VDU 模型，使用 Transformer 作为简单有效的架构对文档图像进行全面理解，并采用交叉熵损失预训练，通过实验表明该模型在速度和准确性方面达到了各种 VDU 任务的最新表现。
PDF3 years ago