使用 RVL-CDIP 评估文档分类
本文提出了一个新的文档分类器 “out-of-distribution” 测试基准,名为 RVL-CDIP,目的是测试分类器在不同分布的输入上的健壮部署和泛化性能。该基准包括两种类型的文档:不属于任何 16 个领域的 RVL-CDIP-O 类别的文档和来自于与原始数据集不同的分布的 16 个领域内的 RVL-CDIP-N 类别的文档。通过评估,发现模型对于新的 out-of-domain RVL-CDIP-N 测试基准的准确率下降了约 15-30%,而且还很难区分领域内 RVL-CDIP-N 和领域外 RVL-CDIP-O 输入。
Oct, 2022
本文介绍了一种更具可伸缩性的方法,其根据从视觉 - 语言基准中提取的大量多样化特征,并测量它们与目标模型输出的相关性。通过该方法,作者确认了之前发现的 CLIP 表现类似于词袋模型,并且在名词和动词上表现更好;作者还发现 CLIP 在处理具体词语时会出现混淆。该框架可用于其他多模态模型和基准测试。
May, 2023
本研究通过使用深度学习和神经网络,采用迁移学习自实际图像和大规模文档图像数据集,分析训练数据量及其它参数对文档图像分类的影响,并展示通过使用最新的神经网络 (GoogLeNet,VGG,ResNet),文本图像分类的准确度提高了超过一半。
Apr, 2017
使用众包数据,本文基于深度卷积神经网络,构建了一个远程遥感图像分类基准测试集,该基准测试集包含两个子数据集,分别为 256×256 和 128×128 像素大小,用于比较与现有基准测试集在手工特征和经典的深度卷积神经网络模型下的表现。
May, 2017
文档图像分类是一项与纯文本文档分类不同的任务,它通过理解表单、电子邮件和其他文档的内容和结构来对文档进行分类。本研究介绍了两个新的多语言数据集 WIKI-DOC 和 MULTIEURLEX-DOC,克服了现有数据集的限制。此外,本研究对以前未经测试的文档图像分类任务中的流行视觉丰富的文档理解或文档智能模型进行了全面研究,包括多标签分类和零样本跨语言迁移设置。实验结果显示多语言文档智能模型在跨语言迁移上存在一定的局限性。我们的数据集和研究结果为未来改进文档智能模型打开了大门。
Oct, 2023
介绍了一款名为 DI-Metrics 的 Python 库,其中包括了基于文本、几何和层次结构指标的用于评估 Visually-Rich Documents 信息提取模型表现的指标,并使用 CORD 数据集比较了三种 SOTA 模型和一种工业模型的性能。该开源库已在 GitHub 上发布。
May, 2022
本文介绍了一种利用大规模图像数据库和学习排名算法的无意见学习盲图像质量评估模型的方法,并成功提出了新的质量推断指数 dipIQ 和 dilIQ。在四个基准图像质量数据库上的实验证明,dipIQ 在精度和鲁棒性方面的优势,相较于现有方法已达到了最佳水平。
Apr, 2019
本文提出一个名为 VRDU 的用于评价文档中网络结构、多样的数据类型以及丰富的模板和布局等不同因素综合作用的数据集,并在此基础上设计实验模型,评估文档中结构化数据提取的性能。作者发现,此类任务中面对新模板挑战较大,而针对该问题,本文也提出了一种 few-shot learning 的方法。
Nov, 2022