DONUT 空洞:通过发掘知识并优化学习效率的 DONUT 稀疏化
本文介绍了一种名为 “Donut” 的 OCR-free VDU 模型,使用 Transformer 作为简单有效的架构对文档图像进行全面理解,并采用交叉熵损失预训练,通过实验表明该模型在速度和准确性方面达到了各种 VDU 任务的最新表现。
Nov, 2021
该论文介绍了一种创新方法,利用两个先进的 AI 模型 (Donut 和 OpenAI GPT-3.5 Turbo) 自动从复杂的规范文档中提取结构化信息,通过获取建筑规范文档的目录,将目录文本结构化为 JSON 数据,实现了卓越的准确性 (85% 对于 Donut,89% 对于 GPT-3.5 Turbo),这一里程碑式的成就将文档索引带入了一个重要飞跃,展示了 AI 在不同类型文档中自动化信息提取任务上的巨大潜力,提高了效率,解放了各行各业的重要资源。
Mar, 2024
我们提出了一种名为 Nougat 的神经光学理解学术文档的模型,它使用光学字符识别(OCR)将科学文档转换为标记语言。该方法有效地提高了数字时代科学知识的可访问性,将人类可读文档和机器可读文本之间的鸿沟缩小。我们发布了相关模型和代码以促进科学文本识别的未来工作。
Aug, 2023
通过预训练 DUBLIN 模型,利用文档图像中的空间和语义信息,包括 Masked Document Content Generation Task、Bounding Box Task 和 Rendered Question Answering Task,实现对象检测和文档图像理解,在各项基准测试中优于现有模型,尤其在 WebSRC 数据集,其 EM 值和 F1 值分别为 77.75 和 84.25,与文本型 SOTA 方法具有可比性。
May, 2023
本研究基于文档图像相关任务,开发了一个名为 Do-GOOD 的 OOD 基准,探究现有预训练 VDU 模型对各种分布转移的鲁棒性及其脆弱性。实验结果发现,在文档图像领域,现有预训练 VDU 模型以及 OOD 泛化算法在分布转移方面表现出较大的性能差距和脆弱性。
Jun, 2023
DocKylin 是一种基于文档的多模态大型语言模型,使用自适应像素精简和动态标记精简模块,以降低视觉文档理解任务中的标记序列长度,并在各种评测中展现了良好的性能。
Jun, 2024
提出了一种多模态 Transformer 模型 - DocFormerv2,应用于视觉文档理解领域,在多个数据集上都取得了最先进的结果,并通过大量消融实验证明了其预训练和无监督任务设计的有效性。
Jun, 2023
本研究提出了一种名为 DoT 的双变形器模型,其中一个较浅的修剪变形器用于选择最佳 K 个关键词,然后一个较深的任务特定变形器将这 K 个关键词作为输入,通过优化任务特定的损失函数,两个变形器共同训练。 DoT 模型虽然产生了轻微的精度降低,但提高了训练和推理时间至少 50%。
Jun, 2021
本文提出一个名为 VRDU 的用于评价文档中网络结构、多样的数据类型以及丰富的模板和布局等不同因素综合作用的数据集,并在此基础上设计实验模型,评估文档中结构化数据提取的性能。作者发现,此类任务中面对新模板挑战较大,而针对该问题,本文也提出了一种 few-shot learning 的方法。
Nov, 2022
这篇研究论文提出了一种名为 RDU 的新的基于区域预测的文档理解模型,可以从表格文本混合的形式文档中提取结构化信息,其方法融合了布局感知和计算机视觉模型,具有出色的实验结果。
Jun, 2022