使用 LayoutLMv3 进行语义表格检测

Nov, 2022

Semantic Table Detection with LayoutLMv3

Ivan Silajev, Niels Victor, Phillip Mortimer

TL;DR本文介绍了一种利用 LayoutLMv3 模型对 IIIT-AR-13K 数据集中的财务文件进行语义表格检测的应用，发现模型表格检测能力并没有得到提升，可能是模型权重不适合所需，或需要更多的优化时间，又或者语义信息并不会提高模型的表格检测准确性。

Abstract

This paper presents an application of the layoutlmv3 model for semantic table detection on financial documents from the iiit-ar-13k dataset

layoutlmv3 semantic table detection financial documents iiit-ar-13k dataset model optimization

发现论文，激发创造

学习表格数据的语义注释

本研究采用深度学习方法，通过利用表格的上下文语义特征和知识库查询算法，实现了对没有元数据的表格的列类型预测，不仅在单独的表格集上表现良好，转移学习到其他表格集也有良好的性能。

May, 2019

用大型语言模型重新思考表格数据理解

通过对大型语言模型的研究，揭示了它们在解释和推理表格数据方面的能力，发现表格结构变化对模型性能的影响，提出了表格结构归一化的方法，并且比较了文本推理和符号推理，同时通过多个推理路径的聚合，取得了在 WIKITABLEQUESTIONS 任务上的最新成果。

Dec, 2023

适用于文档中的表格检测的调制物体查询的端到端半监督方法

本研究提出了一种创新的基于 Transformer 的半监督表格检测器，通过结合一对一和一对多分配技术的新型匹配策略提高了伪标签质量，在早期阶段显著提高了训练效率，进而确保了更好的伪标签进行进一步训练。该方法在多个基准数据集上进行了全面评估，包括 PubLayNet、ICADR-19 和 TableBank，在 TableBank 和 PubLaynet 数据集上以 30％标签数据实现了 95.7％和 97.9％的 mAP，较之前的半监督表格检测方法分别提升了 7.4 和 7.6 个百分点，结果明确展示了该方法的卓越性能，大幅超过现有所有先进方法。该研究在半监督表格检测方法方面取得了重要进展，为实际文档分析任务提供了更高效准确的解决方案。

May, 2024

TableLLM：在真实办公场景中让 LLMs 能够操作表格数据

TableLLM 是一个具有 130 亿参数的强大的大型语言模型，专门用于高效处理嵌入在文件或电子表格中的表格数据操作任务，适用于实际的办公场景。我们提出了一种远程监督方法用于训练，包括推理过程扩展策略，有效帮助训练语言模型理解推理模式，以及交叉验证策略，确保自动生成的数据的质量。通过自行构建的评估管道和基准测试来评估 TableLLM 的性能，可以处理文件和电子表格格式，并突出显示了 TableLLM 与各种现有的通用型和面向表格数据的语言模型相比的优势。我们已公开发布了模型检查点、源代码、基准测试和用于用户交互的网络应用程序。

Mar, 2024

文档图像中的文档布局分析的混合方法

这篇论文探讨了文档布局分析，使用先进的基于 Transformer 的对象检测网络作为创新的图形页面对象检测器，以识别表格、图形和展示元素。通过引入查询编码机制，提供高质量的对象查询进行对比学习，增强了解码器阶段的效率。同时，本方法采用混合匹配方案，在训练阶段将解码器的一对一匹配策略与一对多匹配策略相结合，旨在提高模型在页面上检测各种图形元素的准确性和通用性。实验结果表明，该方法在 PubLayNet、DocLayNet 和 PubTables 等基准测试上的表现超过了现有的最先进方法，PubLayNet 的平均精度为 97.3%，DocLayNet 的精度为 81.6%，PubTables 的精度为 98.6%，证明了其在布局分析方面的优越性能。这些进步不仅提高了将文档图片转换为可编辑和可访问格式的能力，还简化了信息检索和数据提取过程。

Apr, 2024

通过输入设计评估和增强大型语言模型在表格上的结构理解能力

本文旨在通过设计一个基准来评估 LLMs 的结构理解能力，包括七个挑战不同的任务，使用 self-augmentation 方法来提高 LLMs 的表格任务表现，提高了 TabFact、HybridQA、SQA、Feverous 和 ToTTo 等表格任务的性能。

May, 2023

结构化文档中的表格理解

在复杂的商务文件中，本文研究了表格检测与提取，提出一种利用单模型提取表格中信息的方法，并使用基于单词框、位置嵌入、可训练文本特征和图形的全面页面表示来解决这个问题。我们建立了一个新的数据集，提供了多种基线方法和新的神经网络模型来解决表格识别问题，并详细分析了图卷积和自注意力对模型性能的影响。

Mar, 2019

异构表的基于 Schema 的信息提取

本论文探讨了语言模型是否能够支持从复杂表格中进行成本有效的信息提取，并引入了基于架构驱动信息提取的新任务，使用 LLMs 将表格数据转换成遵循人类撰写的架构的结构化记录，并发展了一种 InstrucTE 方法来实现表格抽取，该方法仅需要人工构建的抽取架构，并具备错误恢复策略及高性能，证实了使用更紧凑的抽取模型进行抽取的可行性。

May, 2023

TableNet: 一种深度学习模型，用于从扫描文档图像中端到端地检测表格并提取表格数据

本文介绍了 TableNet—— 一种新颖的端到端深度学习模型，用于识别文档图像中的表格，并提出了一种语义规则的行提取方法，结果表明该模型在两个公开数据集（ICDAR 2013 和 Marmot Table）上都达到了最佳性能，并能通过给模型添加额外的语义特征进行性能提升，同时表明该模型对数据集的迁移学习效果良好。

Jan, 2020

为了提升少样本分类的表格数据序列化

利用大型语言模型（LLMs）在表格数据分类中的整合进行了研究，并引入三种新的序列化技术，包括显著的 LaTeX 序列化方法。该方法显著提升了 LLMs 在处理领域特定数据集方面的性能，具有内存效率和充分利用复杂数据结构的能力，并通过包括特征组合和重要性在内的广泛实验，证明了我们工作在准确性和效率方面的优越性。

Dec, 2023