通过单个深度神经网络从图表中提取数据

Jun, 2019

通过单个深度神经网络从图表中提取数据

Data Extraction from Charts via Single Deep Neural Network

Xiaoyi Liu, Diego Klabjan, Patrick NBless

TL;DR本文介绍了一种基于深度神经网络的自动数据提取框架，用于解决处理不同类型图表时的对象关系，文本识别和对象匹配问题，并成功处理 79.4% 的模拟条形图和 88.0% 的模拟饼图，但对于训练域外的图表性能下降 57.5% 和 62.3%。

Abstract

automatic data extraction from charts is challenging for two reasons: there exist many relations among objects in a chart, which is not a common consideration in general →

automatic data extraction charts computer vision deep neural network object detection

发现论文，激发创造

一种可扩展的基于点的数据图表值检测方法

通过使用点建议网络，我们提出了一种可扩展的方法来识别语义点，以便从科学文章中反向工程（提取值），特别是数据图表。我们的模型能够准确检测复杂的条形图中的显著点，并且在合成的图表上也表现出很好的性能。

Aug, 2023

基于显著性的卷积神经网络用于数字化文档中表格和图表的检测

本文使用深度卷积神经网络、图形模型和关注点概念相结合的方法，设计了一种用于数字文本中表格和图表检测和定位的深度神经网络，其结果在 ICDAR 2013 数据集中表现良好。

Apr, 2018

Scatteract：散点图数据自动提取

该研究介绍了一种完全自动化的系统，利用深度学习技术识别散点图中的关键组成部分，并利用光学字符识别和鲁棒回归从图像中提取散点数值，该方法可以成功从 89% 的测试数据中提取数据。

Apr, 2017

利用远程监督神经网络提取科学图表

本文介绍了一种通过大规模科学文档数据集训练，实现无人干预的科学图表自动提取的方法，并获得了高精度模型以及数据集，成功用于 13 百万学术文献的提取。

Apr, 2018

ChartDETR：一种用于视觉图表识别的多形状检测网络

基于 Transformer 的多形状检测器 ChartDETR 通过在正则形状的角点定位关键点来重建单个图表图像中的多个数据元素，从而在一次预测中预测所有数据元素的形状，不需要进一步的后处理，有效地检测不同形状的数据元素，并在多个数据集上实现了具有竞争力的结果。

Aug, 2023

LineFormer：重新思考线图数据提取 —— 作为实例分割

本文提出了一种基于实例分割的数据线提取方法（LineFormer），在多个基准数据集上取得了最优性能，是提高自动文档理解中数据抽取的关键技术之一。

May, 2023

图表转文本：基于 Transformer 模型的自然语言描述生成

本论文提出了一种基于神经网络的模型来自动生成数据可视化的自然语言摘要，使得即使视力受损的用户也能够获取数据可视化的重要见解。

Oct, 2020

Chart-to-Text: 一项大规模图表摘要的基准测试

本研究的 Chart-to-text 数据集为基础，使用图像字幕和数据转换技术探索了从图表到文本的自然语言概括方法以及相应的神经网络模型，研究结果表明此方法对复杂模式和趋势的描述存在困难。

Mar, 2022

ChartParser：面向印刷障碍者的自动图表解析

本文介绍了一种利用深度学习、OCR 和图像处理技术的自动化流程 ChartParser，可以将研究论文中的图表提取出来，进行分类，提取有用信息，并以易于使用的表格格式呈现给盲人、低视力和其他印刷受限 (BLV) 的人群。我们还对该方法进行了详细的评估。

Nov, 2022

图表分类的调查与方法

调查了当前用于图表分类的最新技术，并对最近发布的 CHARTINFO UB-UNITECH PMC 数据集进行了广泛的性能比较分析，实现了一种基于视觉的 Transformer 模型，取得了在图表分类方面顶尖的结果。

Jul, 2023