Scatteract：散点图数据自动提取

KDDApr, 2017

Scatteract: Automated extraction of data from scatter plots

Mathieu Cliche, David Rosenberg, Dhruv Madeka, Connie Yee

TL;DR该研究介绍了一种完全自动化的系统，利用深度学习技术识别散点图中的关键组成部分，并利用光学字符识别和鲁棒回归从图像中提取散点数值，该方法可以成功从 89% 的测试数据中提取数据。

Abstract

Charts are an excellent way to convey patterns and trends in data, but they do not facilitate further modeling of the data or close inspection of individual data points. We present a fully automated system for extracting the numerical values of data points from images of →

scatter plots automated system deep learning optical character recognition data extraction

发现论文，激发创造

通过单个深度神经网络从图表中提取数据

本文介绍了一种基于深度神经网络的自动数据提取框架，用于解决处理不同类型图表时的对象关系，文本识别和对象匹配问题，并成功处理 79.4% 的模拟条形图和 88.0% 的模拟饼图，但对于训练域外的图表性能下降 57.5% 和 62.3%。

Jun, 2019

ChartParser：面向印刷障碍者的自动图表解析

本文介绍了一种利用深度学习、OCR 和图像处理技术的自动化流程 ChartParser，可以将研究论文中的图表提取出来，进行分类，提取有用信息，并以易于使用的表格格式呈现给盲人、低视力和其他印刷受限 (BLV) 的人群。我们还对该方法进行了详细的评估。

Nov, 2022

线条图形数字化：迈向完全自动化的一步

本文提出了一个细粒度数学图形的视觉理解任务，提供了 Line Graphics 数据集并测试了七种不同的计算机视觉模型来支持此任务，可应用于语义分割和对象检测。

Jul, 2023

利用远程监督神经网络提取科学图表

本文介绍了一种通过大规模科学文档数据集训练，实现无人干预的科学图表自动提取的方法，并获得了高精度模型以及数据集，成功用于 13 百万学术文献的提取。

Apr, 2018

一种可扩展的基于点的数据图表值检测方法

通过使用点建议网络，我们提出了一种可扩展的方法来识别语义点，以便从科学文章中反向工程（提取值），特别是数据图表。我们的模型能够准确检测复杂的条形图中的显著点，并且在合成的图表上也表现出很好的性能。

Aug, 2023

LineFormer：重新思考线图数据提取 —— 作为实例分割

本文提出了一种基于实例分割的数据线提取方法（LineFormer），在多个基准数据集上取得了最优性能，是提高自动文档理解中数据抽取的关键技术之一。

May, 2023

Chart-Text: 全自动图表图像描述器

本文提出了一种名为 Chart-Text 的新颖的、可完全自动化生成图表图像文本描述的系统，该系统对 PNG 格式的图表图像进行分类、检测、分类标签和文本，最终使用特定的图像处理算法从图表图像中提取相关信息，并取得了 99.72％的图表分类准确率和 78.9％的数据提取和相应文本描述的准确率。

Dec, 2018

Chart-to-Text: 一项大规模图表摘要的基准测试

本研究的 Chart-to-text 数据集为基础，使用图像字幕和数据转换技术探索了从图表到文本的自然语言概括方法以及相应的神经网络模型，研究结果表明此方法对复杂模式和趋势的描述存在困难。

Mar, 2022

GenPlot: 扩大图表反渲染数据的规模和多样性

本文提出 GenPlot，一个可以使用合成数据生成数十亿个绘图以用于图表解读的情境下的预训练的图表生成器。

Jun, 2023

通过跨模态学习增强科学图像标题

本文提出了一种新的科学图表标题生成方法，通过自然语言处理、机器学习和多模态技术，从图表中提取关键信息并生成准确简洁的标题，以提高研究数据的清晰度和可访问性。

Jun, 2024