图表分类的调查与方法

Jul, 2023

A Survey and Approach to Chart Classification

Anurag Dhote, Mohammed Javed, David S Doermann

TL;DR调查了当前用于图表分类的最新技术，并对最近发布的 CHARTINFO UB-UNITECH PMC 数据集进行了广泛的性能比较分析，实现了一种基于视觉的 Transformer 模型，取得了在图表分类方面顶尖的结果。

Abstract

charts represent an essential source of visual information in documents and facilitate a deep understanding and interpretation of information typically conveyed numerically. In the scientific literature, there are many

charts chart classification document understanding ml transformer-based approaches

发现论文，激发创造

科技文献中图形分类技术综述

本综述论文系统地将图形分类为五类，包括表格、照片、图表、地图和绘图，并对解决图形分类问题的现有方法和数据集进行了批判性评论。最后，找出了当前研究的差距，并提供了进一步研究图形分类的可能方向。

Jul, 2023

Chart-to-Text: 一项大规模图表摘要的基准测试

本研究的 Chart-to-text 数据集为基础，使用图像字幕和数据转换技术探索了从图表到文本的自然语言概括方法以及相应的神经网络模型，研究结果表明此方法对复杂模式和趋势的描述存在困难。

Mar, 2022

图表转文本：基于 Transformer 模型的自然语言描述生成

本论文提出了一种基于神经网络的模型来自动生成数据可视化的自然语言摘要，使得即使视力受损的用户也能够获取数据可视化的重要见解。

Oct, 2020

图表问答：现状和未来方向

本篇综述论文旨在系统回顾当前关于数据可视化分析中图表问题回答（Chart Question Answering，CQA）系统的最新研究进展。论文采用分类法，从任务输入输出和解决方案等多个角度进行了整理和讨论，并总结了相关试验评估技术，同时还指出了与 CQA 相关的挑战和未来研究机遇。

May, 2022

从像素到洞见：大型基础模型时代的自动图表理解综述

数据可视化是数据分析中至关重要的一环，自然语言处理中的大型基础模型在图表理解任务中发挥了重要作用。本综述论文全面概述了在大型基础模型背景下图表理解的最新发展、挑战和未来方向，包括问题界定、任务和数据集、建模策略以及性能改进等内容。

Mar, 2024

专利中的可视化类型和视角分类

本篇论文采用最先进的深度学习方法，对专利图像中的可视化类型和视角进行分类，并对 CLEF-IP 数据集进行了扩展和手动标注，实验结果证明了该方法的可行性。

Jul, 2023

图表智能分析：优化图表概述的上下文思维方法

数据可视化是呈现数据和挖掘其有价值洞见的关键手段。通过自然语言处理技术，图表总结任务促进了对图表的深入数据分析。本研究构建了一个大规模的全面图表 - 标题数据集，提供了每个图表的微调指导，以解决现有方法在视觉 - 语言匹配和推理能力方面存在的明显不足。基于这个数据集的广泛覆盖范围，可以实现更好的训练数据视角匹配度。此外，我们提出了一种创新的图表总结方法 ChartThinker，它基于思维链和上下文检索策略合成了深层分析，旨在提高生成摘要的逻辑连贯性和准确性。在精心策划的数据集基础上，我们训练的模型在图表总结任务中始终表现出优越性能，在 7 个评估指标上超过了 8 种最先进的模型。我们的数据集和代码可公开访问。

Mar, 2024

结构图：视觉图表理解的感知、结构化和推理

通过提出统一且高效标签的学习范式，我们在不同的下游任务中建立了一个联合感知和推理任务的框架，并通过改进图表信息处理和结构化信息提取，实现了更好的图表理解。

Sep, 2023

通过跨模态学习增强科学图像标题

本文提出了一种新的科学图表标题生成方法，通过自然语言处理、机器学习和多模态技术，从图表中提取关键信息并生成准确简洁的标题，以提高研究数据的清晰度和可访问性。

Jun, 2024

Chart-Text: 全自动图表图像描述器

本文提出了一种名为 Chart-Text 的新颖的、可完全自动化生成图表图像文本描述的系统，该系统对 PNG 格式的图表图像进行分类、检测、分类标签和文本，最终使用特定的图像处理算法从图表图像中提取相关信息，并取得了 99.72％的图表分类准确率和 78.9％的数据提取和相应文本描述的准确率。

Dec, 2018