科技文献中图形分类技术综述

Jul, 2023

A Survey on Figure Classification Techniques in Scientific Documents

Anurag Dhote, Mohammed Javed, David S Doermann

TL;DR本综述论文系统地将图形分类为五类，包括表格、照片、图表、地图和绘图，并对解决图形分类问题的现有方法和数据集进行了批判性评论。最后，找出了当前研究的差距，并提供了进一步研究图形分类的可能方向。

Abstract

figures visually represent an essential piece of information and provide an effective means to communicate scientific facts. Recently there have been many efforts toward extracting data directly from figures, spe

data extraction figures artificial intelligence machine learning classification

发现论文，激发创造

图表分类的调查与方法

调查了当前用于图表分类的最新技术，并对最近发布的 CHARTINFO UB-UNITECH PMC 数据集进行了广泛的性能比较分析，实现了一种基于视觉的 Transformer 模型，取得了在图表分类方面顶尖的结果。

Jul, 2023

利用远程监督神经网络提取科学图表

本文介绍了一种通过大规模科学文档数据集训练，实现无人干预的科学图表自动提取的方法，并获得了高精度模型以及数据集，成功用于 13 百万学术文献的提取。

Apr, 2018

ACL-Fig: 用于科学图像分类的数据集

该研究提出了利用深度学习框架分类科学图表的流程，通过构建一个包含注释的大规模科学图表库，开创了科学图表自动注释的先河。

Jan, 2023

利用本体表示法提取图表描述文本

通过本体语义学的概念识别方法，从科学文章的正文中提取与图形相关的描述性文字，以生成人类和机器可读的知识表示形式，实现对实验研究出版物的图形分析和分类。

Aug, 2022

机器学习可视化分析技术综述

通过系统审视 259 篇近 10 年来发表以及 2010 年前的代表性著作，我们构建了一个分类法，其中包括技术建模前、建模过程中以及建模后的三个一级类别；每个类别可以进一步分为具体的分析任务，并列举了一些最近具有影响力的作品。同时，我们还讨论和突出了有挑战和有前景的研究机会，这些对于视觉分析的研究者非常有用。

Aug, 2020

通过跨模态学习增强科学图像标题

本文提出了一种新的科学图表标题生成方法，通过自然语言处理、机器学习和多模态技术，从图表中提取关键信息并生成准确简洁的标题，以提高研究数据的清晰度和可访问性。

Jun, 2024

机器学习的视觉分析：数据视角调查

本论文对机器学习模型的数据方面的可视化相关研究进行了系统梳理和分析，提出了五类数据类型和六种数据中心任务，并分析了 143 篇论文的相关分布，展望了未来的研究趋势和方向。

Jul, 2023

专利中的可视化类型和视角分类

本篇论文采用最先进的深度学习方法，对专利图像中的可视化类型和视角进行分类，并对 CLEF-IP 数据集进行了扩展和手动标注，实验结果证明了该方法的可行性。

Jul, 2023

FigureQA：一份为视觉推理而注释的图像数据集

FigureQA 是一个视觉推理语料库，包含超过一百万个基于 100,000 张图像的问题 - 答案对。图像来自五个类别的合成科学式图形：线图、点线图、垂直和水平条形图以及饼状图。通过从 15 个模板中生成问题并提供用于训练机器学习模型的附属数据，FigureQA 为开发可以直观地识别数据可视化中的模式的模型迈出了第一步。

Oct, 2017

图学习：综述

本文综述了图学习领域的现状和发展，主要包括四种现有的学习方法：图信号处理、矩阵分解、随机游走和深度学习。并且介绍了这些方法在文本、图像、科学、知识图谱和组合优化等领域的应用，以及该领域未来的研究方向。

May, 2021