利用本体表示法提取图表描述文本

Aug, 2022

利用本体表示法提取图表描述文本

Figure Descriptive Text Extraction using Ontological Representation

Gilchan Park, Julia Rayz, Line Pouchard

TL;DR通过本体语义学的概念识别方法，从科学文章的正文中提取与图形相关的描述性文字，以生成人类和机器可读的知识表示形式，实现对实验研究出版物的图形分析和分类。

Abstract

experimental research publications provide figure form resources including graphs, charts, and any type of images to effectively support and convey methods and results. To describe figures, authors add captions,

experimental research figures concept recognition knowledge representations sentence classification

发现论文，激发创造

以图注形式生成科学文档的自动文本摘要

本文介绍用纯文本方法生成科学文献图注的一种新方法，使用了提取目标图像引用的句子然后将其总结为简明的图注的技术。通过真实世界 arXiv 论文的实验，我们的方法在自动和人工评估中都优于以前的方法，证明了纯文本技术在生成学术文章中的图片标注方面的有效性。

Feb, 2023

科技文献中图形分类技术综述

本综述论文系统地将图形分类为五类，包括表格、照片、图表、地图和绘图，并对解决图形分类问题的现有方法和数据集进行了批判性评论。最后，找出了当前研究的差距，并提供了进一步研究图形分类的可能方向。

Jul, 2023

利用远程监督神经网络提取科学图表

本文介绍了一种通过大规模科学文档数据集训练，实现无人干预的科学图表自动提取的方法，并获得了高精度模型以及数据集，成功用于 13 百万学术文献的提取。

Apr, 2018

SciCap：生成科学图像的标题

本文提出一种端到端的神经框架，用于自动生成科学图表的信息丰富，高质量的标题，并引入了基于计算机科学 arXiv 论文的 SCICAP 大规模图标题数据集，包括 200 万多个来自 290,000 多篇论文的图像，展示了为科学图表生成标题的机遇和挑战。

Oct, 2021

通过跨模态学习增强科学图像标题

本文提出了一种新的科学图表标题生成方法，通过自然语言处理、机器学习和多模态技术，从图表中提取关键信息并生成准确简洁的标题，以提高研究数据的清晰度和可访问性。

Jun, 2024

SciCap+: 研究科学图标题挑战的知识增强数据集

通过扩充 SciCap 数据集，创新性地将科技论文中的图例标注生成作为知识增强图像标注任务，提高自动标注的效率与准确性，并探讨了从不同模视觉图像和文本知识融合的角度进行标注生成的实验研究。

Jun, 2023

生成科学范式的摘要

使用文献计量学文本挖掘和摘要技术对科学文献进行自动生成，利用引文生成摘要，通过 C-LexRank 对单篇文章进行摘要提取，同时拓展到一系列科学文献的摘要提取和分析，证明引文是创建摘要的一种独特信息资源。

Feb, 2014

FigGen: 文字转科学图形生成

本文提出了一个新的问题：文本描述下的科学图形生成，为此介绍了一个基于扩散的方法 FigGen，并探讨了该任务面临的主要挑战。

Jun, 2023

新闻故事：用视觉摘要来说明文章

该研究探索了一个新的问题，即学习对不同长度和数量的图像文本具有强鲁棒性的自我监督视觉语言表示法，其介绍了一个包括超过 31M 篇文章，22M 张图片和 1M 个视频的大规模多模态数据集，并表明最先进的图像文本对齐方法不能很好地处理带有多张图像和更长篇幅的叙述，且还提出了一种直观的基线方法，在 GoodNews 数据集上零样本图像集检索表现比这些方法高出 10%。

Jul, 2022

ACL-Fig: 用于科学图像分类的数据集

该研究提出了利用深度学习框架分类科学图表的流程，通过构建一个包含注释的大规模科学图表库，开创了科学图表自动注释的先河。

Jan, 2023