ACL-Fig: 用于科学图像分类的数据集

Jan, 2023

ACL-Fig: 用于科学图像分类的数据集

ACL-Fig: A Dataset for Scientific Figure Classification

Zeba Karishma, Shaurya Rohatgi, Kavya Shrinivas Puranik, Jian Wu, C. Lee Giles

TL;DR该研究提出了利用深度学习框架分类科学图表的流程，通过构建一个包含注释的大规模科学图表库，开创了科学图表自动注释的先河。

Abstract

Most existing large-scale academic search engines are built to retrieve text-based information. However, there are no large-scale retrieval services for scientific figures and →

academic search engines scientific figures tables deep-learning-based framework annotated corpus

发现论文，激发创造

利用远程监督神经网络提取科学图表

本文介绍了一种通过大规模科学文档数据集训练，实现无人干预的科学图表自动提取的方法，并获得了高精度模型以及数据集，成功用于 13 百万学术文献的提取。

Apr, 2018

科技文献中图形分类技术综述

本综述论文系统地将图形分类为五类，包括表格、照片、图表、地图和绘图，并对解决图形分类问题的现有方法和数据集进行了批判性评论。最后，找出了当前研究的差距，并提供了进一步研究图形分类的可能方向。

Jul, 2023

SciCap+: 研究科学图标题挑战的知识增强数据集

通过扩充 SciCap 数据集，创新性地将科技论文中的图例标注生成作为知识增强图像标注任务，提高自动标注的效率与准确性，并探讨了从不同模视觉图像和文本知识融合的角度进行标注生成的实验研究。

Jun, 2023

FigureQA：一份为视觉推理而注释的图像数据集

FigureQA 是一个视觉推理语料库，包含超过一百万个基于 100,000 张图像的问题 - 答案对。图像来自五个类别的合成科学式图形：线图、点线图、垂直和水平条形图以及饼状图。通过从 15 个模板中生成问题并提供用于训练机器学习模型的附属数据，FigureQA 为开发可以直观地识别数据可视化中的模式的模型迈出了第一步。

Oct, 2017

SciCap：生成科学图像的标题

本文提出一种端到端的神经框架，用于自动生成科学图表的信息丰富，高质量的标题，并引入了基于计算机科学 arXiv 论文的 SCICAP 大规模图标题数据集，包括 200 万多个来自 290,000 多篇论文的图像，展示了为科学图表生成标题的机遇和挑战。

Oct, 2021

MedICaT: 医学影像、字幕和文本参考数据集

介绍了用于 MedICaT 医学图像的上下文数据集，其中包括来自 131k 篇开放获取生物医学论文的 217k 个图像。该数据集用于研究复合图中的子图对子标题的自动对齐，并展示了内联引用在图像文本匹配中的效用。

Oct, 2020

ACLSum: 科学出版物面向方面的概述的新数据集

提供了一个由领域专家精心制作和评估的新型摘要数据集 ACLSum，集成了多个方面的科学论文摘要，通过对预训练语言模型和最先进的大型语言模型（LLMs）的性能进行广泛实验，探索学术领域中抽取式与生成式摘要的有效性，结果证实了在学术领域中端到端基于方面的摘要的普遍优越性。

Mar, 2024

发明专利图生成短长说明

介绍了 Qatent PatFig，这是一个创新的大规模专利图像数据集，包括来自超过 11,000 个欧洲专利申请的 30,000 多个专利图像。每个图像都提供简短和长篇的描述、参考编号及其相应的术语，以及描述图像组件之间相互作用的最小索赔集。通过在 Qatent PatFig 上微调 LVLM 模型以生成简短和长篇描述，并研究在专利图像字幕生成过程中加入不同的基于文本的线索在预测阶段的效果，评估了数据集的可用性。

Sep, 2023

ACL OCL 语料库：推动计算语言学中的开放科学

ACL OCL 是一个学术语料库，包含了 74k 篇计算语言学领域的科学论文，210k 个提取的图形，以及针对所有 OCL 论文的主题。该研究观察到语法标注、分块和解析主题明显下降，而自然语言生成主题再次兴盛。

May, 2023

AI Challenger：一个用于深入理解图像的大规模数据集

提出了一个名为 AIC 的大规模数据集，其中包括人类关键点检测、大规模属性数据集和图像中文字幕，用于评估和改进计算方法。

Nov, 2017