ICCV 2023 第一届科学图像标题生成挑战的解决方案

Mar, 2024

ICCV 2023 第一届科学图像标题生成挑战的解决方案

The Solution for the ICCV 2023 1st Scientific Figure Captioning Challenge

Dian Chao, Xin Song, Shupeng Zhong, Boyuan Wang, Xiangyu Wu...

TL;DR通过文本摘要生成图像标题，提取 OCR 信息，提取特定图像的信息，使用评估指标 BRIO 进行质量评估，获得最高的得分。

Abstract

In this paper, we propose a solution for improving the quality of captions generated for figures in papers. We adopt the approach of summarizing the textual content in the paper to generate image →

captions figures ocr information image-specific information evaluation metrics

发现论文，激发创造

以图注形式生成科学文档的自动文本摘要

本文介绍用纯文本方法生成科学文献图注的一种新方法，使用了提取目标图像引用的句子然后将其总结为简明的图注的技术。通过真实世界 arXiv 论文的实验，我们的方法在自动和人工评估中都优于以前的方法，证明了纯文本技术在生成学术文章中的图片标注方面的有效性。

Feb, 2023

CVPR2023 NICE 图像字幕挑战的解决方案

我们在新的零样本图像字幕挑战中提出了解决方案，通过使用 Laion-5B 数据集进行数据级别和 OFA 模型进行模型级别的图像字幕任务，结合对齐图像文本对的对比学习和相似性桶策略，以及检索增强策略构建内容丰富的模板，最终在排行榜上取得了第一名的成绩。

Oct, 2023

CVPR2024 NICE 图像字幕挑战的解决方案

本文介绍了一种解决 2024 年 NICE 的 Topic 1 零射击图像字幕挑战的方法，通过检索增强和字幕评分方法有效地增强图像字幕，利用图像字幕模型生成的高质量字幕作为训练数据，利用基于手工模板的大规模视觉 - 语言预训练模型（OFA）执行图像字幕任务，并将字幕级策略与检索增强策略相结合，以生成更高质量、更匹配和语义丰富的字幕。基于这种方法，在排行榜上排名第一，在所有其他指标上都取得了第一名的成绩。

Apr, 2024

SciCap：生成科学图像的标题

本文提出一种端到端的神经框架，用于自动生成科学图表的信息丰富，高质量的标题，并引入了基于计算机科学 arXiv 论文的 SCICAP 大规模图标题数据集，包括 200 万多个来自 290,000 多篇论文的图像，展示了为科学图表生成标题的机遇和挑战。

Oct, 2021

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

SciCap+: 研究科学图标题挑战的知识增强数据集

通过扩充 SciCap 数据集，创新性地将科技论文中的图例标注生成作为知识增强图像标注任务，提高自动标注的效率与准确性，并探讨了从不同模视觉图像和文本知识融合的角度进行标注生成的实验研究。

Jun, 2023

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

2015 MSCOCO 图像标注挑战赛的经验教训

本篇论文介绍一种基于深度递归结构的生成模型，其结合了近期在计算机视觉和机器翻译方面的进展，能够用于生成描述图像的自然语言句子，并经过多种数据集的实验，验证了模型的准确性和语言的流畅性。更重要的是，该模型是通过对图像描述的学习而得，在最近的 COCO 数据集比赛中获得了与 Microsoft Research 团队平分秋色的好成绩，并提供了一个基于 TensorFlow 开源的实现。

Sep, 2016

通过内容多样性探索实现准确的基于文本的图像描述

本文提出了一种基于锚文本和锚中心图的多视角多解释图像说明生成方法，以提高生成说明的多样性和准确性。

Apr, 2021

基于短语的图像字幕

本文提出了一个简单的模型，可以根据给定的图片生成相关的句子，它主要侧重于句子的语法，并基于先前训练的卷积神经网络对图像进行编码。该模型使用纯双线性模型训练一个度量来衡量图像表示和用于描述图像的短语之间的关系，并能够基于推断的短语产生给定测试图像的相关描述。这一方法在 Flickr30k 和 Microsoft COCO 等数据集中实现了可比较的结果，同时相对于最先进的模型而言，该方法更加简单。

Feb, 2015