ICCV 2023 第一届科学图像标题生成挑战的解决方案
本文介绍用纯文本方法生成科学文献图注的一种新方法,使用了提取目标图像引用的句子然后将其总结为简明的图注的技术。通过真实世界 arXiv 论文的实验,我们的方法在自动和人工评估中都优于以前的方法,证明了纯文本技术在生成学术文章中的图片标注方面的有效性。
Feb, 2023
我们在新的零样本图像字幕挑战中提出了解决方案,通过使用 Laion-5B 数据集进行数据级别和 OFA 模型进行模型级别的图像字幕任务,结合对齐图像文本对的对比学习和相似性桶策略,以及检索增强策略构建内容丰富的模板,最终在排行榜上取得了第一名的成绩。
Oct, 2023
本文介绍了一种解决 2024 年 NICE 的 Topic 1 零射击图像字幕挑战的方法,通过检索增强和字幕评分方法有效地增强图像字幕,利用图像字幕模型生成的高质量字幕作为训练数据,利用基于手工模板的大规模视觉 - 语言预训练模型(OFA)执行图像字幕任务,并将字幕级策略与检索增强策略相结合,以生成更高质量、更匹配和语义丰富的字幕。基于这种方法,在排行榜上排名第一,在所有其他指标上都取得了第一名的成绩。
Apr, 2024
本文提出一种端到端的神经框架,用于自动生成科学图表的信息丰富,高质量的标题,并引入了基于计算机科学 arXiv 论文的 SCICAP 大规模图标题数据集,包括 200 万多个来自 290,000 多篇论文的图像,展示了为科学图表生成标题的机遇和挑战。
Oct, 2021
通过扩充 SciCap 数据集,创新性地将科技论文中的图例标注生成作为知识增强图像标注任务,提高自动标注的效率与准确性,并探讨了从不同模视觉图像和文本知识融合的角度进行标注生成的实验研究。
Jun, 2023
本文提出了一种新的图像字幕架构,通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成,实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验,证明该框架在多种评估指标下取得了业内最优表现。
Jun, 2020
本篇论文介绍一种基于深度递归结构的生成模型,其结合了近期在计算机视觉和机器翻译方面的进展,能够用于生成描述图像的自然语言句子,并经过多种数据集的实验,验证了模型的准确性和语言的流畅性。更重要的是,该模型是通过对图像描述的学习而得,在最近的 COCO 数据集比赛中获得了与 Microsoft Research 团队平分秋色的好成绩,并提供了一个基于 TensorFlow 开源的实现。
Sep, 2016
本文提出了一个简单的模型,可以根据给定的图片生成相关的句子,它主要侧重于句子的语法,并基于先前训练的卷积神经网络对图像进行编码。该模型使用纯双线性模型训练一个度量来衡量图像表示和用于描述图像的短语之间的关系,并能够基于推断的短语产生给定测试图像的相关描述。这一方法在 Flickr30k 和 Microsoft COCO 等数据集中实现了可比较的结果,同时相对于最先进的模型而言,该方法更加简单。
Feb, 2015