通过跨模态学习增强科学图像标题

Jun, 2024

通过跨模态学习增强科学图像标题

Enhancing Scientific Figure Captioning Through Cross-modal Learning

Mateo Alejandro Rojas, Rafael Carranza

TL;DR本文提出了一种新的科学图表标题生成方法，通过自然语言处理、机器学习和多模态技术，从图表中提取关键信息并生成准确简洁的标题，以提高研究数据的清晰度和可访问性。

Abstract

Scientific charts are essential tools for effectively communicating research findings, serving as a vital medium for conveying information and revealing data patterns. With the rapid advancement of science and technology, coupled with the advent of the big data era, the volume and dive

scientific chart big data era automatic generation natural language processing research data

发现论文，激发创造

SciCap：生成科学图像的标题

本文提出一种端到端的神经框架，用于自动生成科学图表的信息丰富，高质量的标题，并引入了基于计算机科学 arXiv 论文的 SCICAP 大规模图标题数据集，包括 200 万多个来自 290,000 多篇论文的图像，展示了为科学图表生成标题的机遇和挑战。

Oct, 2021

以图注形式生成科学文档的自动文本摘要

本文介绍用纯文本方法生成科学文献图注的一种新方法，使用了提取目标图像引用的句子然后将其总结为简明的图注的技术。通过真实世界 arXiv 论文的实验，我们的方法在自动和人工评估中都优于以前的方法，证明了纯文本技术在生成学术文章中的图片标注方面的有效性。

Feb, 2023

Chart-to-Text: 一项大规模图表摘要的基准测试

本研究的 Chart-to-text 数据集为基础，使用图像字幕和数据转换技术探索了从图表到文本的自然语言概括方法以及相应的神经网络模型，研究结果表明此方法对复杂模式和趋势的描述存在困难。

Mar, 2022

基于推理和序列级训练的图像描述生成

本文探讨了图标题问题，提出了一个基于 FigureQA 数据集的新数据集 FigCAP，同时提出了 Label Maps Attention 和 Relation Maps Attention 两种新型关注机制，以及采用强化学习进行序列级训练以优化评估指标，从而改善长标题的生成并在广泛实验中取得显著优于基线的表现，具有自动生成各种图形标签的巨大潜力。

Jun, 2019

SciCapenter: 支持科学图表的标题组合与机器生成的标题和评级

SciCapenter 是一个交互式系统，使用尖端的人工智能技术为科学图解提供多样的说明，通过评估说明质量的得分和综合检查表，显著降低了科学说明撰写的认知负荷。

Mar, 2024

Chart-Text: 全自动图表图像描述器

本文提出了一种名为 Chart-Text 的新颖的、可完全自动化生成图表图像文本描述的系统，该系统对 PNG 格式的图表图像进行分类、检测、分类标签和文本，最终使用特定的图像处理算法从图表图像中提取相关信息，并取得了 99.72％的图表分类准确率和 78.9％的数据提取和相应文本描述的准确率。

Dec, 2018

SciCap+: 研究科学图标题挑战的知识增强数据集

通过扩充 SciCap 数据集，创新性地将科技论文中的图例标注生成作为知识增强图像标注任务，提高自动标注的效率与准确性，并探讨了从不同模视觉图像和文本知识融合的角度进行标注生成的实验研究。

Jun, 2023

图表智能分析：优化图表概述的上下文思维方法

数据可视化是呈现数据和挖掘其有价值洞见的关键手段。通过自然语言处理技术，图表总结任务促进了对图表的深入数据分析。本研究构建了一个大规模的全面图表 - 标题数据集，提供了每个图表的微调指导，以解决现有方法在视觉 - 语言匹配和推理能力方面存在的明显不足。基于这个数据集的广泛覆盖范围，可以实现更好的训练数据视角匹配度。此外，我们提出了一种创新的图表总结方法 ChartThinker，它基于思维链和上下文检索策略合成了深层分析，旨在提高生成摘要的逻辑连贯性和准确性。在精心策划的数据集基础上，我们训练的模型在图表总结任务中始终表现出优越性能，在 7 个评估指标上超过了 8 种最先进的模型。我们的数据集和代码可公开访问。

Mar, 2024

VisText：基于语义丰富的图表标题生成基准测试

本文介绍了 VisText 数据集，通过 fine-tune state-of-the-art 语言模型并应用 prefix-tuning 生成语义丰富、连贯的图表描述字幕，经过比较能够接近最先进的图表字幕模型，并提出了可以指导未来工作的错误分类。

Jun, 2023

高效图像探索与用户引导图像标题生成的视觉分析

运用预训练的大规模语言 - 图像模型，本文尝试解决可视化分析中的两个问题：大规模图像数据集的高效探索与潜在数据偏差的发现以及图像标题的评估与生成过程的引导。通过分析从语言 - 图像模型自动生成的图像标题，我们能深入了解视觉内容的语义基础，并发现数据偏差。同时，通过展示视觉内容与文本标题之间的关联，揭示了预训练的语言 - 图像模型在标题生成能力上的不足，并提出了一种交互界面来引导标题生成。通过具体案例研究和大规模图像数据集的领域实践者验证了该系统的有效性。

Nov, 2023