无 OCR 文档理解变压器
DONUT-hole 是一种稀疏 OCR-free 视觉文档理解(VDU)模型,通过优化策略实现了模型密度的 54% 减少,同时保持性能,并在文档图像关键信息提取(KIE)任务中展示其对物流公司开发更高效 VDU 系统的潜力。
Nov, 2023
提出了一种多模态 Transformer 模型 - DocFormerv2,应用于视觉文档理解领域,在多个数据集上都取得了最先进的结果,并通过大量消融实验证明了其预训练和无监督任务设计的有效性。
Jun, 2023
本文介绍了基于多模态变压器的 DocFormer 架构,它以无监督预训练方式运行,能够更好地理解各种格式和布局的文档,并结合了文本、视觉和空间特征,实现了多模态自注意层和共享学习空间嵌入等特点,使其在四个数据集上均取得了业界领先的结果。
Jun, 2021
该论文介绍了一种创新方法,利用两个先进的 AI 模型 (Donut 和 OpenAI GPT-3.5 Turbo) 自动从复杂的规范文档中提取结构化信息,通过获取建筑规范文档的目录,将目录文本结构化为 JSON 数据,实现了卓越的准确性 (85% 对于 Donut,89% 对于 GPT-3.5 Turbo),这一里程碑式的成就将文档索引带入了一个重要飞跃,展示了 AI 在不同类型文档中自动化信息提取任务上的巨大潜力,提高了效率,解放了各行各业的重要资源。
Mar, 2024
UDoc 是一个新的文档理解的统一预训练框架,它通过使用三个自监督损失约束表示模型,将单词和视觉特征作为输入,使神经网络从无标签的数据中学习到更好的文档表示,并取得了下游任务的提升。
Apr, 2022
通过预训练 DUBLIN 模型,利用文档图像中的空间和语义信息,包括 Masked Document Content Generation Task、Bounding Box Task 和 Rendered Question Answering Task,实现对象检测和文档图像理解,在各项基准测试中优于现有模型,尤其在 WebSRC 数据集,其 EM 值和 F1 值分别为 77.75 和 84.25,与文本型 SOTA 方法具有可比性。
May, 2023
本文提出了一种名为 TrOCR 的端到端文本识别方法,其中使用了预训练的图像 Transformer 和文本 Transformer 模型,不仅适用于印刷体和手写体,还适用于场景文本识别任务,并在准确率方面优于当前最先进的模型。
Sep, 2021
该研究提出了通用文档处理(UDOP)方法,使用 Vision-Text-Layout Transformer 对文本、图像和布局进行建模,实现了高质量的神经文档编辑和内容定制,是首个在文档 AI 领域一次性完成高质量文档编辑和内容定制的模型,并在金融报告、学术论文和网站等数据领域中实现了 8 种文档 AI 任务的最新成果。
Dec, 2022
我们提出了一种名为 Nougat 的神经光学理解学术文档的模型,它使用光学字符识别(OCR)将科学文档转换为标记语言。该方法有效地提高了数字时代科学知识的可访问性,将人类可读文档和机器可读文本之间的鸿沟缩小。我们发布了相关模型和代码以促进科学文本识别的未来工作。
Aug, 2023
通过使用 Decoder-only Transformer 作为生成式语言模型,本研究提出了一种相对简单而有效的文本识别方法 DTrOCR,实验结果表明 DTrOCR 在识别印刷、手写和场景文本方面比当前的最先进方法表现出更好的性能。
Aug, 2023