使用 RVL-CDIP 评估文档分类

ACLJun, 2023

On Evaluation of Document Classification using RVL-CDIP

Stefan Larson, Gordon Lim, Kevin Leach

TL;DR揭示了 RVL-CDIP 标准存在标签误差、多标签问题、测试和训练数据重复、存在敏感信息等问题，并建议建立一个新的文件分类基准。

Abstract

The RVL-CDIP benchmark is widely used for measuring performance on the task of document classification. Despite its widespread use, we reveal several undesirable characteristics of the RVL-CDIP benchmark. These include (1) substantial amounts of →

document classification label noise multi-label benchmarking us social security numbers

发现论文，激发创造

评估文档图像分类器的越界性能

本文提出了一个新的文档分类器 “out-of-distribution” 测试基准，名为 RVL-CDIP，目的是测试分类器在不同分布的输入上的健壮部署和泛化性能。该基准包括两种类型的文档：不属于任何 16 个领域的 RVL-CDIP-O 类别的文档和来自于与原始数据集不同的分布的 16 个领域内的 RVL-CDIP-N 类别的文档。通过评估，发现模型对于新的 out-of-domain RVL-CDIP-N 测试基准的准确率下降了约 15-30％，而且还很难区分领域内 RVL-CDIP-N 和领域外 RVL-CDIP-O 输入。

Oct, 2022

视觉语言模型的可扩展性能分析

本文介绍了一种更具可伸缩性的方法，其根据从视觉 - 语言基准中提取的大量多样化特征，并测量它们与目标模型输出的相关性。通过该方法，作者确认了之前发现的 CLIP 表现类似于词袋模型，并且在名词和动词上表现更好；作者还发现 CLIP 在处理具体词语时会出现混淆。该框架可用于其他多模态模型和基准测试。

May, 2023

深度 CNN 和训练策略在文档图像分类上的应用研究：减少一半的错误率

本研究通过使用深度学习和神经网络，采用迁移学习自实际图像和大规模文档图像数据集，分析训练数据量及其它参数对文档图像分类的影响，并展示通过使用最新的神经网络 (GoogLeNet，VGG，ResNet)，文本图像分类的准确度提高了超过一半。

Apr, 2017

RSI-CB: 基于众包数据的大规模遥感图像分类基准

使用众包数据，本文基于深度卷积神经网络，构建了一个远程遥感图像分类基准测试集，该基准测试集包含两个子数据集，分别为 256×256 和 128×128 像素大小，用于比较与现有基准测试集在手工特征和经典的深度卷积神经网络模型下的表现。

May, 2017

文件分类的模块化多模态架构

文本和图像内容均可用于页面分类，该方法在 RVL-CDIP 基准测试中实现了 93.03% 的准确率，超过了当前技术水平。

Dec, 2019

利用带噪标签训练的深度神经网络及其应用

本文针对网络训练时噪声标签的问题，提出了一种基于交叉验证和合作训练策略的解决方法，成功提高了深度神经网络在合成和实际噪音数据集下的泛化性能。

May, 2019

一个多模态多语言文件图像分类基准

文档图像分类是一项与纯文本文档分类不同的任务，它通过理解表单、电子邮件和其他文档的内容和结构来对文档进行分类。本研究介绍了两个新的多语言数据集 WIKI-DOC 和 MULTIEURLEX-DOC，克服了现有数据集的限制。此外，本研究对以前未经测试的文档图像分类任务中的流行视觉丰富的文档理解或文档智能模型进行了全面研究，包括多标签分类和零样本跨语言迁移设置。实验结果显示多语言文档智能模型在跨语言迁移上存在一定的局限性。我们的数据集和研究结果为未来改进文档智能模型打开了大门。

Oct, 2023

视觉丰富文档评估的文档智能度量

介绍了一款名为 DI-Metrics 的 Python 库，其中包括了基于文本、几何和层次结构指标的用于评估 Visually-Rich Documents 信息提取模型表现的指标，并使用 CORD 数据集比较了三种 SOTA 模型和一种工业模型的性能。该开源库已在 GitHub 上发布。

May, 2022

dipIQ：通过学习排名可区分的图像对进行盲图像质量评估

本文介绍了一种利用大规模图像数据库和学习排名算法的无意见学习盲图像质量评估模型的方法，并成功提出了新的质量推断指数 dipIQ 和 dilIQ。在四个基准图像质量数据库上的实验证明，dipIQ 在精度和鲁棒性方面的优势，相较于现有方法已达到了最佳水平。

Apr, 2019

从复杂文档中提取结构化信息的基准测试

本文提出一个名为 VRDU 的用于评价文档中网络结构、多样的数据类型以及丰富的模板和布局等不同因素综合作用的数据集，并在此基础上设计实验模型，评估文档中结构化数据提取的性能。作者发现，此类任务中面对新模板挑战较大，而针对该问题，本文也提出了一种 few-shot learning 的方法。

Nov, 2022