文件分类的模块化多模态架构

Dec, 2019

Modular Multimodal Architecture for Document Classification

Tyler Dauphinee, Nikunj Patel, Mohammad Rashidi

TL;DR文本和图像内容均可用于页面分类，该方法在 RVL-CDIP 基准测试中实现了 93.03% 的准确率，超过了当前技术水平。

Abstract

page classification is a crucial component to any document analysis system, allowing for complex branching control flows for different components of a given document. Utilizing both the visual and →

page classification document analysis visual content textual content rvl-cdip benchmark

发现论文，激发创造

基于文本和图像的多模态深度网络文档分类

本文介绍了一种多模态神经网络，结合了 OCR 提取的文本和图像信息，来对文献图像进行分类。该方法在 Tobacco3482 和 RVL-CDIP 数据集上的准确率提高了 3%。

Jul, 2019

巴西法律文件的序列感知多模态页面分类

本研究探讨了巴西最高法院文件的多模式分类，采用 ResNet 与多核卷积神经网络提取视觉和文本特征以及 biLSTM 网络建模页面的序列性，发现多模式分类优于单一模式分类。

Jul, 2022

一个多模态多语言文件图像分类基准

文档图像分类是一项与纯文本文档分类不同的任务，它通过理解表单、电子邮件和其他文档的内容和结构来对文档进行分类。本研究介绍了两个新的多语言数据集 WIKI-DOC 和 MULTIEURLEX-DOC，克服了现有数据集的限制。此外，本研究对以前未经测试的文档图像分类任务中的流行视觉丰富的文档理解或文档智能模型进行了全面研究，包括多标签分类和零样本跨语言迁移设置。实验结果显示多语言文档智能模型在跨语言迁移上存在一定的局限性。我们的数据集和研究结果为未来改进文档智能模型打开了大门。

Oct, 2023

使用多模态特征进行设备端文档分类

本文介绍了一种将光学字符识别（OCR）与模型架构集成的新型分类文档的方法，用于在设备上进行分类，防止私人用户数据传输到服务器，并展示在 FOOD-101 多模态数据集上，将模型压缩 30％后展示了竞争性的结果。

Jan, 2021

使用多模态全卷积神经网络学习从文档中提取语义结构

该研究提出了一种全卷积网络，通过多模态方法从文档图像中提取语义结构，并使用像素级分割方式考虑文档的语义结构提取。该方法不仅考虑文本的视觉外观，还考虑文本的内容，通过有效的合成文档生成数据进行预训练和半监督学习方法滴定优化网络架构，施加于真实文档上，此方法极大地提高了分割的性能表现。

Jun, 2017

一张图 worth 一千字吗？一种深度多模融合 e-commerce 商品分类模型

该论文采用决策级融合方法将文本和图像输入用于产品分类预测，通过训练深度神经网络和学习网络来选择输入类型，并成功地提高了大规模产品分类数据集上的准确性。

Nov, 2016

多层次多模态 Transformer 用于多页文档问答任务

本研究扩展了针对单页文档的 DocVQA 任务到多页文档的场景，提出了一个基于 T5 架构的新的分层方法 Hi-VT5，用于处理长的多页文档，并且通过实验证明本方法可以在单阶段完成回答问题和提供包含答案相关信息的页码，该信息可以作为可解释性量度。

Dec, 2022

层次化多模态预训练以理解视觉丰富的网页

通过整合文本、结构和图像等多模态信息，使用多模态预训练网络进行自动文档理解和信息提取，实现了对网页的深入理解，显著提高了网页理解任务的性能。

Feb, 2024

超越文档页面分类：设计、数据集和挑战

本文强调将文档分类基准测试更贴近实际应用的需求，包括在测试的数据性质 ($X$：多通道、多页、多行业；$Y$：类别分布和标签集的多样性) 以及所考虑的分类任务 ($f$：多页文档、页面流和文档捆绑分类)；我们确定了公共多页文档分类数据集的缺乏，形式化了应用场景中产生的不同分类任务，并提出了针对高效多页文档表示的价值的动机；对所提出的多页文档分类数据集进行的实证研究表明，当前的基准测试已经不再相关，需要更新以评估实际中出现的完整文档；这种现实检验也呼吁采用更成熟的评估方法，包括校准评估、推理复杂性（时间 - 内存）和一系列现实分布变化（如 born-digital vs. 扫描噪音、页面次序变化）；我们研究以对未来改进提出具体建议的希望之声作为结束。

Aug, 2023

多页文档视觉问答使用自注意力评分机制

多页文档视觉问答任务的新方法和有效训练策略，利用视觉特征对文档页进行相关性评分，可在多页场景中提供与最新技术相媲美的性能，且对 GPU 资源需求较少。

Apr, 2024