本综述论文系统地将图形分类为五类,包括表格、照片、图表、地图和绘图,并对解决图形分类问题的现有方法和数据集进行了批判性评论。最后,找出了当前研究的差距,并提供了进一步研究图形分类的可能方向。
Jul, 2023
本研究的 Chart-to-text 数据集为基础,使用图像字幕和数据转换技术探索了从图表到文本的自然语言概括方法以及相应的神经网络模型,研究结果表明此方法对复杂模式和趋势的描述存在困难。
Mar, 2022
本论文提出了一种基于神经网络的模型来自动生成数据可视化的自然语言摘要,使得即使视力受损的用户也能够获取数据可视化的重要见解。
Oct, 2020
本篇综述论文旨在系统回顾当前关于数据可视化分析中图表问题回答(Chart Question Answering,CQA)系统的最新研究进展。论文采用分类法,从任务输入输出和解决方案等多个角度进行了整理和讨论,并总结了相关试验评估技术,同时还指出了与 CQA 相关的挑战和未来研究机遇。
May, 2022
数据可视化是数据分析中至关重要的一环,自然语言处理中的大型基础模型在图表理解任务中发挥了重要作用。本综述论文全面概述了在大型基础模型背景下图表理解的最新发展、挑战和未来方向,包括问题界定、任务和数据集、建模策略以及性能改进等内容。
Mar, 2024
本篇论文采用最先进的深度学习方法,对专利图像中的可视化类型和视角进行分类,并对 CLEF-IP 数据集进行了扩展和手动标注,实验结果证明了该方法的可行性。
数据可视化是呈现数据和挖掘其有价值洞见的关键手段。通过自然语言处理技术,图表总结任务促进了对图表的深入数据分析。本研究构建了一个大规模的全面图表 - 标题数据集,提供了每个图表的微调指导,以解决现有方法在视觉 - 语言匹配和推理能力方面存在的明显不足。基于这个数据集的广泛覆盖范围,可以实现更好的训练数据视角匹配度。此外,我们提出了一种创新的图表总结方法 ChartThinker,它基于思维链和上下文检索策略合成了深层分析,旨在提高生成摘要的逻辑连贯性和准确性。在精心策划的数据集基础上,我们训练的模型在图表总结任务中始终表现出优越性能,在 7 个评估指标上超过了 8 种最先进的模型。我们的数据集和代码可公开访问。
通过提出统一且高效标签的学习范式,我们在不同的下游任务中建立了一个联合感知和推理任务的框架,并通过改进图表信息处理和结构化信息提取,实现了更好的图表理解。
Sep, 2023
本文提出了一种新的科学图表标题生成方法,通过自然语言处理、机器学习和多模态技术,从图表中提取关键信息并生成准确简洁的标题,以提高研究数据的清晰度和可访问性。
Jun, 2024
本文提出了一种名为 Chart-Text 的新颖的、可完全自动化生成图表图像文本描述的系统,该系统对 PNG 格式的图表图像进行分类、检测、分类标签和文本,最终使用特定的图像处理算法从图表图像中提取相关信息,并取得了 99.72%的图表分类准确率和 78.9%的数据提取和相应文本描述的准确率。
Dec, 2018