BriefGPT.xyz
大模型
Ask
alpha
关键词
ocr-free
搜索结果 - 4
UReader:基于多模态大型语言模型的通用无 OCR 视觉智能语言理解
通过利用 Multimodal Large Language Model (MLLM) 的浅层文本识别能力,我们在较低的训练成本下,通过在广泛的视觉语境理解任务上联合微调,设计了 UReader 模型,实现了 OCR-free 模式下在 8
→
PDF
9 months ago
mPLUG-DocOwl: 模块化的多模态大型语言模型对于文档理解
我们提出了基于 mPLUG-Owl 的 mPLUG-DocOwl,通过联合训练语言、视觉和文档指令调优数据集的统一指令调优策略,增强了 OCR-free 文档理解能力,并构建了用于比较模型能力的 OCR-free 文档指令理解评估集 LLM
→
PDF
a year ago
DocParser: 基于端到端的无 OCR 信息提取技术, 用于含丰富视觉元素的文档
本文提出了基于 DocParser 的 OCR-free 端到端信息提取模型,不同于以往的方法,其能更好地提取具有区别性的字符特征,并在各种数据集上实现了最先进的结果,同时速度比以前的工作还要快。
PDF
a year ago
ECCV
无 OCR 文档理解变压器
本文介绍了一种名为 “Donut” 的 OCR-free VDU 模型,使用 Transformer 作为简单有效的架构对文档图像进行全面理解,并采用交叉熵损失预训练,通过实验表明该模型在速度和准确性方面达到了各种 VDU 任务的最新表现。
PDF
3 years ago
Prev
Next