高性能表格结构识别所需的早期卷积
通过自我监督预训练方法,本研究解决了线性投影变换器在表格结构识别模型中替代混合 CNN-transformer 后性能下降的问题,进一步推进了表格作为一种有前景的表示学习方式。
Feb, 2024
将无结构的表格图像转换为 HTML 序列的表结构识别(TSR)任务经常遇到这样的挑战,并发现现有的基于检测的解决方案存在一些限制,因此比较了两阶段和基于 Transformer 的检测模型,明确了成功的两阶段检测模型的关键设计方面,包括多类问题定义、锚框生成的纵横比和骨干网络的特征生成。通过改进 Cascade R-CNN 模型的这些方面,并应用简单的方法,实现了在 SciTSR、FinTabNet 和 PubTables1M 数据集上针对结构 TEDS 的最新性能提升,分别达到 19.32%、11.56% 和 14.77%。
Dec, 2023
提出了一种名为 TSRFormer 的新的表格结构识别方法,使用线性回归问题而不是图像分割问题来预测表格的分隔线,并提出了新的两阶段 DETR 分隔线预测方法来直接从表图像中预测分隔线。使用新的技术后,我们的 TSRFormer 在几个基准数据集上都获得了最先进的表现。
Aug, 2022
本文提出了一种新的表格结构识别模型,通过引入新的对象检测解码器和基于 transformer 的解码器,能够更准确地提取表格内容并处理各种形式的表格。
Mar, 2022
我们提出了一种端到端的流程,通过集成深度学习模型实现图像中的表格自动识别,解决了表格检测、表格结构识别和表格内容识别的问题,提高了准确性和效率。
Apr, 2024
本研究引入了一种创新的基于深度学习技术的交通标志识别(TSR)方法,特别强调视觉变换器。实验评估结果表明,该方法在提高预测速度和准确性方面具有显著的效果,为 TSR 算法的精确可靠开发奠定了基础,受益于驾驶辅助系统和自动驾驶汽车。
Apr, 2024
通过自我监督预训练和表格图像的更丰富无标注数据,UniTable 提出了一种统一的训练框架,将表格结构识别的训练对象整合为语言建模,达到了领域内最高水平。
Mar, 2024
本研究提出了一种名为 Multi-Type-TD-TSR 的多阶段流水线,可实现表格检测和结构识别的端对端解决方案,利用深度学习模型实现表格检测和区分边框的三种不同类型的表格。在 ICDAR 2019 表格结构识别数据集上进行评估,实现了新的最先进技术。
May, 2021
本研究采用混合卷积神经网络和 Transformer 的混合结构,提出了一种具有自适应特征提取能力和具有全局信息建模的方法,用于医学图像分割。实验结果表明,该方法比现有的方法具有更好的医学图像分割结果。
Jun, 2023
RobusTabNet 是一种新的具有表检测和结构识别功能的方法,可检测表格的边界,并从异构文档图像中重建每个表格的细胞结构。我们提出了使用 CornerNet 作为新的区域提议网络进行表检测,并提出了基于分割和合并的表格结构识别方法。
Mar, 2022