具有复杂布局的历史日本文件大型数据集

CVPRApr, 2020

具有复杂布局的历史日本文件大型数据集

A Large Dataset of Historical Japanese Documents with Complex Layouts

Zejiang Shen, Kaixuan Zhang, Melissa Dell

TL;DR本文介绍了一种使用 HJDataset 的深度学习方法，可以准确地分析历史日文文档的布局并提取内容。该数据集包含 250,000 多个布局元素注释和基于半规则的方法构建，旨在提供深度学习模型的基准性能分析。

Abstract

deep learning-based approaches for automatic document layout analysis and content extraction have the potential to unlock rich information

deep learning document layout analysis content extraction hjdataset historical japanese documents

发现论文，激发创造

PubLayNet：有史以来最大的文档布局分析数据集

本文提出了 PubLayNet 数据集用于文档布局分析，并证明基于该数据集的深度神经网络模型可以准确地识别科学文章的布局。

Aug, 2019

M$^{6}$Doc：现代文档布局分析的大规模多格式、多类型、多布局、多语言、多注释类别数据集

本文介绍了一种名为 $M^{6} Doc$ 的大型多样化文档布局分析数据集和一种基于 transformer 的文档布局分析方法 TransDLANet。该方法采用自适应元素匹配机制和构建分割分支，以更好地匹配真实情况，并且实现更精确的文档图像实例分割，其中 $M^{6} Doc$ 数据集展示了其有效性，并且 TransDLANet 在该数据集上达到了 64.5％的 mAP，该数据集具有多种注释类别的特点。

May, 2023

基于布局的文档驱动对话信息提取：数据集、方法和演示

该研究构建了基于文档的对话系统，旨在从视觉丰富的文档（VRD）中提取结构和语义知识，以生成准确的回复，为此创建了一个布局感知的文档级信息提取数据集 LIE，并开发了基准方法考虑人类的布局特征，实验结果表明布局对基于 VRD 的提取至关重要，系统演示也验证了提取的知识能够帮助用户找到关心的答案。LIE 包含来自产品和官方文档中 4,061 页的 62k 注释，成为我们所知最大的基于 VRD 的信息提取数据集。

Jul, 2022

RanLayNet：一种用于领域自适应和泛化的文档布局检测数据集

为了解决有限多样性数据集对深度学习模型的影响问题，我们引入了一个包含空间位置、范围和布局元素类型的标签的合成文档数据集 RanLayNet。经过实验证明，使用我们的数据集训练的深度布局识别模型相比仅使用实际文档训练的模型表现更优。此外，我们通过对 Doclaynet 数据集使用 PubLayNet 和 IIIT-AR-13K 数据集的微调模型进行比较分析，发现使用我们的数据集进行增强的模型在科学文档领域的 TABLE 类任务中取得了 0.398 和 0.588 的 mAP95 分数。

Apr, 2024

DocBank: 一个文档布局分析基准数据集

本文介绍了 DocBank，一个包含 500K 篇文档页面的基准数据集，其中包含细粒度的令牌级别的注释，用于文档布局分析的多模态方法的性能提高研究。实验结果表明，使用 DocBank 训练出的模型可以准确识别各种不同类型的文档的布局信息。

Jun, 2020

LayoutReader：用于阅读顺序检测的文本和布局预训练

本论文提出了一个读取顺序检测系统，使用深度学习和基于 seq2seq 模型的 LayoutReader，对包含 500,000 份文档的 ReadingBank 数据库进行了测试，并提高了开源和商业 OCR 引擎的文本顺序识别能力。

Aug, 2021

LoRaLay: 长距离和布局感知摘要的多语言和多模态数据集

LoRaLay 是一个包含带有布局信息的长距离摘要的数据集合，拓展现有的英语数据集（arXiv 和 PubMed）并提供了四个覆盖法语、西班牙语、葡萄牙语和韩语的新数据集。在这篇文章中，我们提出了结合布局感知和长程模型的新基线，并获得了最先进的结果，这显示了在摘要模型中结合两种研究线路的重要性。

Jan, 2023

美国故事：历史美国报纸的大规模结构化文本数据集

用深度学习方法从报纸图像中提取全文文章，以构建高质量数据集供大型语言模型预训练，达到对历史英语和历史世界知识有更好理解的目的。

Aug, 2023

HRDoc: 文档结构的分层重构的数据集和基准方法

本文提出了一种新的任务：层次化重建多页文档的语义结构，并介绍了基于编码 - 解码结构的层次性文档结构分析系统 (DSPS) 来解决该问题。通过采用多模式双向编码器和结构感知 GRU 解码器，以及软屏蔽操作，DSPS 模型的表现优于基线方法。此外，作者还构建了一个大规模数据集 HRDoc，并公开发布。

Mar, 2023

像素精准手写文档布局分析的高效少样本学习

本文提出了一种高效的 few-shot 学习框架，通过在公开数据集 DIVA-HisDB 上的试验，表明该框架的性能可与当前最先进的完全监督方法媲美，有效地解决了在古代手写文献分析中像素精确的文本标注是一项耗时的过程，而这种信息在现实世界中很少可用的问题。

Oct, 2022