数据可视化字幕生成模型的线状图示
本文提出一种端到端的神经框架,用于自动生成科学图表的信息丰富,高质量的标题,并引入了基于计算机科学 arXiv 论文的 SCICAP 大规模图标题数据集,包括 200 万多个来自 290,000 多篇论文的图像,展示了为科学图表生成标题的机遇和挑战。
Oct, 2021
本文探讨了图标题问题,提出了一个基于 FigureQA 数据集的新数据集 FigCAP,同时提出了 Label Maps Attention 和 Relation Maps Attention 两种新型关注机制,以及采用强化学习进行序列级训练以优化评估指标,从而改善长标题的生成并在广泛实验中取得显著优于基线的表现,具有自动生成各种图形标签的巨大潜力。
Jun, 2019
该研究创建了一个新的数据集 TextCaps,涉及 28k 张图片和 145k 个标题,用于挑战计算机视觉模型识别图像中的文本,与视觉环境进行关联,并决定要复制或释义文本的哪个部分。研究表明,这个新的数据集提供了许多前所未有的技术挑战。
Mar, 2020
通过扩充 SciCap 数据集,创新性地将科技论文中的图例标注生成作为知识增强图像标注任务,提高自动标注的效率与准确性,并探讨了从不同模视觉图像和文本知识融合的角度进行标注生成的实验研究。
Jun, 2023
本文提出了一种新的科学图表标题生成方法,通过自然语言处理、机器学习和多模态技术,从图表中提取关键信息并生成准确简洁的标题,以提高研究数据的清晰度和可访问性。
Jun, 2024
本文提出了一种用于创建图像标题的方法,通过采用额外的视觉信息,包括对象检测器、识别器等来丰富标题,经大型语言模型融合,生成全面的图像描述。实验证明,该方法有效,所提供的数据集显着提高了图像 - 文本检索。
May, 2023
运用预训练的大规模语言 - 图像模型,本文尝试解决可视化分析中的两个问题:大规模图像数据集的高效探索与潜在数据偏差的发现以及图像标题的评估与生成过程的引导。通过分析从语言 - 图像模型自动生成的图像标题,我们能深入了解视觉内容的语义基础,并发现数据偏差。同时,通过展示视觉内容与文本标题之间的关联,揭示了预训练的语言 - 图像模型在标题生成能力上的不足,并提出了一种交互界面来引导标题生成。通过具体案例研究和大规模图像数据集的领域实践者验证了该系统的有效性。
Nov, 2023
通过一项众包研究,我们探究了读者在同时考虑图表和标题时如何获取主要信息。研究发现,当图表和标题都描述具有高显著性的特点时,读者会将该特点作为主要信息,而当标题描述相对低显著的特点时,读者则更倾向于从图表中获取更显著的特点作为主要信息,并且外部环境的信息可以帮助读者更好地理解标题。基于这些发现,我们制定出编写有效的图表 - 标题对的指南。
Jan, 2021
SciCapenter 是一个交互式系统,使用尖端的人工智能技术为科学图解提供多样的说明,通过评估说明质量的得分和综合检查表,显著降低了科学说明撰写的认知负荷。
Mar, 2024
本文提出了一个细粒度数学图形的视觉理解任务,提供了 Line Graphics 数据集并测试了七种不同的计算机视觉模型来支持此任务,可应用于语义分割和对象检测。
Jul, 2023