2024 年第二届 SciCAP 竞赛的提案报告

Jul, 2024

2024 年第二届 SciCAP 竞赛的提案报告

Proposal Report for the 2nd SciCAP Competition 2024

Pengpeng Li, Tingmin Li, Jingyuan Wang, Boyuan Wang, Yang Yang

TL;DR本文提出了一种利用辅助信息进行文档摘要的方法，通过使用高质量的 OCR 数据和最初提取的信息，可以有效地总结与所描述对象相关的内容，进一步改善了主流的文本生成模型的摘要性能。在 2024 年 SciCAP 竞赛的长字幕和短字幕两个类别中获得了 4.33 和 4.66 的最高分，分别在两个类别中排名第一。

Abstract

In this paper, we propose a method for document summarization using auxiliary information. This approach effectively summarizes descriptions related to specific images, tables, and appendices within lengthy texts. Our experiments demonstrate that leveraging high-quality →

document summarization auxiliary information ocr data summarization performance scicap competition

发现论文，激发创造

ICCV 2023 第一届科学图像标题生成挑战的解决方案

通过文本摘要生成图像标题，提取 OCR 信息，提取特定图像的信息，使用评估指标 BRIO 进行质量评估，获得最高的得分。

Mar, 2024

SciCap+: 研究科学图标题挑战的知识增强数据集

通过扩充 SciCap 数据集，创新性地将科技论文中的图例标注生成作为知识增强图像标注任务，提高自动标注的效率与准确性，并探讨了从不同模视觉图像和文本知识融合的角度进行标注生成的实验研究。

Jun, 2023

文档摘要：应用于关键词提取和图像检索的论文

自动摘要是降低文本文档长度的过程，以生成概述，保留原始文档的最重要的要点。我们通过推荐图像和生成包含关联和情感的意见摘要，研究了两个问题。我们使用概率模型和词相似性启发式方法生成图像标题和提取关键短语，并借助相关反馈机制重新排序这些关键短语。我们使用 Rank Aggregation 和相关反馈方法来改进图像检索，同时我们还提出一组子模复杂函数用于意见摘要，以平衡压缩需求和情感检测需求，生成和文档情感和摘要情感之间有良好相关性且 ROUGE 得分优秀的摘要。我们还比较了所提出的子模复杂函数的性能。

May, 2024

以图注形式生成科学文档的自动文本摘要

本文介绍用纯文本方法生成科学文献图注的一种新方法，使用了提取目标图像引用的句子然后将其总结为简明的图注的技术。通过真实世界 arXiv 论文的实验，我们的方法在自动和人工评估中都优于以前的方法，证明了纯文本技术在生成学术文章中的图片标注方面的有效性。

Feb, 2023

利用信息提取和压缩进行大规模多文档摘要

开发了一种基于抽象的总结框架，适用于多个异构文档，该框架独立于标记数据。与现有的多文件总结方法不同，我们的框架处理讲述不同故事的文档，而不是同一主题的文档。最后，我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体，其中每个文档组都包含大量且多样化的文档，以评估我们的模型与其他基线系统的性能。我们的实验表明，我们的框架在这种更通用的情况下胜过了现有的最先进方法。

May, 2022

CL-SciSumm 2018 共享任务：结果与关键见解

CL-SciSumm Shared Task 2018 was held as part of SIGIR's Annual Conference, which focused on scientific document summarization in the computational linguistics domain, evaluated using two metrics and providing datasets for the community.

Sep, 2019

科学论文摘要的监督式提取方法

本文介绍了一种新的数据集，用于总结计算机科学出版物，展示了利用神经句子编码和传统的总结功能来开发模型的方式，并表明即使在传统的科学领域中，对句子的编码以及他们的本地和全局背景进行编码的模型也有很好的性能，并实现了明显优于已经建立的基准方法的结果。

Jun, 2017

SciCap：生成科学图像的标题

本文提出一种端到端的神经框架，用于自动生成科学图表的信息丰富，高质量的标题，并引入了基于计算机科学 arXiv 论文的 SCICAP 大规模图标题数据集，包括 200 万多个来自 290,000 多篇论文的图像，展示了为科学图表生成标题的机遇和挑战。

Oct, 2021

生成科学范式的摘要

使用文献计量学文本挖掘和摘要技术对科学文献进行自动生成，利用引文生成摘要，通过 C-LexRank 对单篇文章进行摘要提取，同时拓展到一系列科学文献的摘要提取和分析，证明引文是创建摘要的一种独特信息资源。

Feb, 2014

SciBERTSUM: 面向科学文档的提取式摘要

SciBERTSUM 是一种针对科学论文的摘要框架，通过增加节嵌入层和应用稀疏注意力机制，在长文本（超过 500 句）中表现出更好的 ROUGE 分数。

Jan, 2022