DUBLIN -- 语言 - 图像网络理解文档 | BriefGPT

May, 2023

DUBLIN -- 语言 - 图像网络理解文档

DUBLIN -- Document Understanding By Language-Image Network

Kriti Aggarwal, Aditi Khandelwal, Kumar Tanmay, Owais Mohammed Khan, Qiang Liu...

TL;DR通过预训练 DUBLIN 模型，利用文档图像中的空间和语义信息，包括 Masked Document Content Generation Task、Bounding Box Task 和 Rendered Question Answering Task，实现对象检测和文档图像理解，在各项基准测试中优于现有模型，尤其在 WebSRC 数据集，其 EM 值和 F1 值分别为 77.75 和 84.25，与文本型 SOTA 方法具有可比性。

Abstract

visual document understanding is a complex task that involves analyzing both the text and the visual elements in document images. Existing models often rely on manual feature engineering or domain-specific pipelines, which limit their generalization ability across different document ty

visual document understanding dublin pretrained model object detection benchmark evaluation

发现论文，激发创造

基于文本和图像的多模态深度网络文档分类

本文介绍了一种多模态神经网络，结合了 OCR 提取的文本和图像信息，来对文献图像进行分类。该方法在 Tobacco3482 和 RVL-CDIP 数据集上的准确率提高了 3%。

Jul, 2019

具有布局感知能力的基于预训练语言模型的视觉丰富文档信息抽取方法

本文研究信息提取的问题，使用大型预训练语言模型和图神经网络相结合的模型来高效地编码视觉和文本信息，并引入新的微调目标，通过使用大量未标记的领域内数据来改善领域内无监督微调。我们在真实世界的发票和简历数据集上进行了实验，并表明所提出的方法在发票上的绝对 F1 比强文本基线高出 6.3％，在简历中 F1 绝对值增加了 4.7％。在少数样本情况下，我们的方法需要比基线少 30 倍的批注数据才能在约 90％的 F1 达到相同的性能水平。

May, 2020

一个多模态多语言文件图像分类基准

文档图像分类是一项与纯文本文档分类不同的任务，它通过理解表单、电子邮件和其他文档的内容和结构来对文档进行分类。本研究介绍了两个新的多语言数据集 WIKI-DOC 和 MULTIEURLEX-DOC，克服了现有数据集的限制。此外，本研究对以前未经测试的文档图像分类任务中的流行视觉丰富的文档理解或文档智能模型进行了全面研究，包括多标签分类和零样本跨语言迁移设置。实验结果显示多语言文档智能模型在跨语言迁移上存在一定的局限性。我们的数据集和研究结果为未来改进文档智能模型打开了大门。

Oct, 2023

高效端到端视觉文档理解与根据聚类

通过小型的预训练图像到文本模型，我们在像素级视觉语言理解的端到端模型中学习选择性文本或布局识别和推理，取得了在信息图表、扫描文档和图像三个视觉文档理解基准中的一致性改进，超过直接预测答案的相似 Pix2Struct 模型 4% 以上。

Nov, 2023

Bi-VLDoc: 面向视觉丰富的文档理解的双向视觉 - 语言建模

本文提出了一种名为 Bi-VLDoc 的预训练模型，该模型通过双向视觉语言监督策略和视觉语言混合注意机制来完全探索和利用视觉和语言之间的交互作用，以学习具有更丰富语义的更强的跨模态文档表示，并在模型效果上显著优于现有模型，包括文档理解、文档分类和文档视觉问答等领域。

Jun, 2022

统一视觉、文本和版式，实现通用文档处理

该研究提出了通用文档处理（UDOP）方法，使用 Vision-Text-Layout Transformer 对文本、图像和布局进行建模，实现了高质量的神经文档编辑和内容定制，是首个在文档 AI 领域一次性完成高质量文档编辑和内容定制的模型，并在金融报告、学术论文和网站等数据领域中实现了 8 种文档 AI 任务的最新成果。

Dec, 2022

Uni3DL: 三维和语言理解的统一模型

Uni3DL 是一个统一的 3D 和语言理解模型，它运用于点云而不是传统的多视图图像，实现了对多种 3D 任务的支持，包括语义分割、目标检测、实例分割、视觉定位、3D 字幕和文本 - 3D 跨模态检索，并且在性能上超过了最先进的特定任务模型。

Dec, 2023

DocKylin：一种用于视觉文档理解的大型多模型，具有高效的视觉精简能力

DocKylin 是一种基于文档的多模态大型语言模型，使用自适应像素精简和动态标记精简模块，以降低视觉文档理解任务中的标记序列长度，并在各种评测中展现了良好的性能。

Jun, 2024

语言理解通用多模态表示

本文提出了一种新方法来将视觉信息作为协助信号用于 NLP 任务，使用 Transformer 编码器和卷积神经网络来对文本和图像进行编码，通过注意力层将两种模态的表征进行融合，实验结果表明，该方法在不同的任务和语言中都具有很好的效果。

Jan, 2023

使用多模态全卷积神经网络学习从文档中提取语义结构

该研究提出了一种全卷积网络，通过多模态方法从文档图像中提取语义结构，并使用像素级分割方式考虑文档的语义结构提取。该方法不仅考虑文本的视觉外观，还考虑文本的内容，通过有效的合成文档生成数据进行预训练和半监督学习方法滴定优化网络架构，施加于真实文档上，此方法极大地提高了分割的性能表现。

Jun, 2017