高性能表格结构识别所需的早期卷积

Nov, 2023

高性能表格结构识别所需的早期卷积

High-Performance Transformers for Table Structure Recognition Need Early Convolutions

ShengYun Peng, Seongmin Lee, Xiaojing Wang, Rajarajeswari Balasubramaniyan, Duen Horng Chau

TL;DR在表结构识别中，我们设计了一个轻量级的视觉编码器，通过使用卷积网络作为起始模块以达到高性能的目的，并提供了可重现性的剔除研究和开源代码以促进在我们的领域中的透明度、激发创新和促进公平比较。

Abstract

table structure recognition (TSR) aims to convert tabular images into a machine-readable format, where a visual encoder extracts image features and a →

table structure recognition visual encoder textual decoder convolutional neural network self-supervised learning

发现论文，激发创造

表格结构识别 Transformers 的自监督预训练

通过自我监督预训练方法，本研究解决了线性投影变换器在表格结构识别模型中替代混合 CNN-transformer 后性能下降的问题，进一步推进了表格作为一种有前景的表示学习方式。

Feb, 2024

对视觉丰富文档的基于检测的表格结构识别进行再思考

将无结构的表格图像转换为 HTML 序列的表结构识别（TSR）任务经常遇到这样的挑战，并发现现有的基于检测的解决方案存在一些限制，因此比较了两阶段和基于 Transformer 的检测模型，明确了成功的两阶段检测模型的关键设计方面，包括多类问题定义、锚框生成的纵横比和骨干网络的特征生成。通过改进 Cascade R-CNN 模型的这些方面，并应用简单的方法，实现了在 SciTSR、FinTabNet 和 PubTables1M 数据集上针对结构 TEDS 的最新性能提升，分别达到 19.32%、11.56% 和 14.77%。

Dec, 2023

TSRFormer：基于 Transformer 的表格结构识别

提出了一种名为 TSRFormer 的新的表格结构识别方法，使用线性回归问题而不是图像分割问题来预测表格的分隔线，并提出了新的两阶段 DETR 分隔线预测方法来直接从表图像中预测分隔线。使用新的技术后，我们的 TSRFormer 在几个基准数据集上都获得了最先进的表现。

Aug, 2022

TableFormer: 基于 Transformer 的表格结构理解

本文提出了一种新的表格结构识别模型，通过引入新的对象检测解码器和基于 transformer 的解码器，能够更准确地提取表格内容并处理各种形式的表格。

Mar, 2022

TC-OCR：高效检测与识别表格结构和内容的 TableCraft OCR

我们提出了一种端到端的流程，通过集成深度学习模型实现图像中的表格自动识别，解决了表格检测、表格结构识别和表格内容识别的问题，提高了准确性和效率。

Apr, 2024

颠覆交通标志识别：揭示视觉变换器的潜力

本研究引入了一种创新的基于深度学习技术的交通标志识别（TSR）方法，特别强调视觉变换器。实验评估结果表明，该方法在提高预测速度和准确性方面具有显著的效果，为 TSR 算法的精确可靠开发奠定了基础，受益于驾驶辅助系统和自动驾驶汽车。

Apr, 2024

UniTable: 通过自监督预训练实现表格结构识别的统一框架

通过自我监督预训练和表格图像的更丰富无标注数据，UniTable 提出了一种统一的训练框架，将表格结构识别的训练对象整合为语言建模，达到了领域内最高水平。

Mar, 2024

使用多阶段流程进行表格检测和表格结构识别的多类型 TD-TSR —— 从 OCR 到结构化表格表示中提取文档图像的表格

本研究提出了一种名为 Multi-Type-TD-TSR 的多阶段流水线，可实现表格检测和结构识别的端对端解决方案，利用深度学习模型实现表格检测和区分边框的三种不同类型的表格。在 ICDAR 2019 表格结构识别数据集上进行评估，实现了新的最先进技术。

May, 2021

TEC-Net: 视觉 Transformer 集成卷积神经网络用于医学图像分割

本研究采用混合卷积神经网络和 Transformer 的混合结构，提出了一种具有自适应特征提取能力和具有全局信息建模的方法，用于医学图像分割。实验结果表明，该方法比现有的方法具有更好的医学图像分割结果。

Jun, 2023

异构文档图像中的鲁棒表格检测和结构识别

RobusTabNet 是一种新的具有表检测和结构识别功能的方法，可检测表格的边界，并从异构文档图像中重建每个表格的细胞结构。我们提出了使用 CornerNet 作为新的区域提议网络进行表检测，并提出了基于分割和合并的表格结构识别方法。

Mar, 2022