Scatteract:散点图数据自动提取
本文介绍了一种基于深度神经网络的自动数据提取框架,用于解决处理不同类型图表时的对象关系,文本识别和对象匹配问题,并成功处理 79.4% 的模拟条形图和 88.0% 的模拟饼图,但对于训练域外的图表性能下降 57.5% 和 62.3%。
Jun, 2019
本文介绍了一种利用深度学习、OCR 和图像处理技术的自动化流程 ChartParser,可以将研究论文中的图表提取出来,进行分类,提取有用信息,并以易于使用的表格格式呈现给盲人、低视力和其他印刷受限 (BLV) 的人群。我们还对该方法进行了详细的评估。
Nov, 2022
本文提出了一个细粒度数学图形的视觉理解任务,提供了 Line Graphics 数据集并测试了七种不同的计算机视觉模型来支持此任务,可应用于语义分割和对象检测。
Jul, 2023
通过使用点建议网络,我们提出了一种可扩展的方法来识别语义点,以便从科学文章中反向工程(提取值),特别是数据图表。我们的模型能够准确检测复杂的条形图中的显著点,并且在合成的图表上也表现出很好的性能。
Aug, 2023
本文提出了一种基于实例分割的数据线提取方法(LineFormer),在多个基准数据集上取得了最优性能,是提高自动文档理解中数据抽取的关键技术之一。
May, 2023
本文提出了一种名为 Chart-Text 的新颖的、可完全自动化生成图表图像文本描述的系统,该系统对 PNG 格式的图表图像进行分类、检测、分类标签和文本,最终使用特定的图像处理算法从图表图像中提取相关信息,并取得了 99.72%的图表分类准确率和 78.9%的数据提取和相应文本描述的准确率。
Dec, 2018
本研究的 Chart-to-text 数据集为基础,使用图像字幕和数据转换技术探索了从图表到文本的自然语言概括方法以及相应的神经网络模型,研究结果表明此方法对复杂模式和趋势的描述存在困难。
Mar, 2022
本文提出了一种新的科学图表标题生成方法,通过自然语言处理、机器学习和多模态技术,从图表中提取关键信息并生成准确简洁的标题,以提高研究数据的清晰度和可访问性。
Jun, 2024