调查了当前用于图表分类的最新技术,并对最近发布的 CHARTINFO UB-UNITECH PMC 数据集进行了广泛的性能比较分析,实现了一种基于视觉的 Transformer 模型,取得了在图表分类方面顶尖的结果。
Jul, 2023
本文介绍了一种通过大规模科学文档数据集训练,实现无人干预的科学图表自动提取的方法,并获得了高精度模型以及数据集,成功用于 13 百万学术文献的提取。
Apr, 2018
该研究提出了利用深度学习框架分类科学图表的流程,通过构建一个包含注释的大规模科学图表库,开创了科学图表自动注释的先河。
Jan, 2023
通过本体语义学的概念识别方法,从科学文章的正文中提取与图形相关的描述性文字,以生成人类和机器可读的知识表示形式,实现对实验研究出版物的图形分析和分类。
Aug, 2022
通过系统审视 259 篇近 10 年来发表以及 2010 年前的代表性著作,我们构建了一个分类法,其中包括技术建模前、建模过程中以及建模后的三个一级类别;每个类别可以进一步分为具体的分析任务,并列举了一些最近具有影响力的作品。同时,我们还讨论和突出了有挑战和有前景的研究机会,这些对于视觉分析的研究者非常有用。
Aug, 2020
本文提出了一种新的科学图表标题生成方法,通过自然语言处理、机器学习和多模态技术,从图表中提取关键信息并生成准确简洁的标题,以提高研究数据的清晰度和可访问性。
Jun, 2024
本论文对机器学习模型的数据方面的可视化相关研究进行了系统梳理和分析,提出了五类数据类型和六种数据中心任务,并分析了 143 篇论文的相关分布,展望了未来的研究趋势和方向。
本篇论文采用最先进的深度学习方法,对专利图像中的可视化类型和视角进行分类,并对 CLEF-IP 数据集进行了扩展和手动标注,实验结果证明了该方法的可行性。
FigureQA 是一个视觉推理语料库,包含超过一百万个基于 100,000 张图像的问题 - 答案对。图像来自五个类别的合成科学式图形:线图、点线图、垂直和水平条形图以及饼状图。通过从 15 个模板中生成问题并提供用于训练机器学习模型的附属数据,FigureQA 为开发可以直观地识别数据可视化中的模式的模型迈出了第一步。
Oct, 2017
本文综述了图学习领域的现状和发展,主要包括四种现有的学习方法:图信号处理、矩阵分解、随机游走和深度学习。并且介绍了这些方法在文本、图像、科学、知识图谱和组合优化等领域的应用,以及该领域未来的研究方向。
May, 2021