Flickr30k 实体：收集区域到短语的对应关系以构建更丰富的图像到句子模型

May, 2015

Flickr30k 实体：收集区域到短语的对应关系以构建更丰富的图像到句子模型

Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models

Bryan A. Plummer, Liwei Wang, Chris M. Cervantes, Juan C. Caicedo, Julia Hockenmaier...

TL;DR本文介绍了 Flickr30k 实体数据集，其中增加了 244k 个共指链，将相同实体的提及于同一图像中的不同标题链接起来，并与 276k 个手动标注的边界框关联。该注释对于自动图像描述和基于语言的图像理解的持续进展至关重要。

Abstract

The flickr30k dataset has become a standard benchmark for sentence-based image description. This paper presents flickr30k entities, which

flickr30k entities coreference chains automatic image description grounded language understanding

发现论文，激发创造

基于综合图像 - 语言线索的短语定位和视觉关系检测

该论文提出了一种利用大量语言和视觉线索定位或落实图像中短语的框架，该系统在 Flickr30k 实体数据集的短语定位和斯坦福 VRD 数据集的视觉关系检测上取得了最先进的性能。

Nov, 2016

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

通过多模态蕴含修订图像 - 文本检索

本论文提出了一种多模态蕴含分类器来确定图像的语句，以及开发了一种通用可调节学习速率策略来教授一个检索模型区分这些蕴含的语句和其他负样本。在实验中，我们手动注释了一个蕴含更正的图像文本检索数据集用于评估。结果表明，所提出的蕴含分类器达到了约 78% 的准确度，并持续提高了图像文本检索基线的性能。

Aug, 2022

实体感知图像标题生成

提出了一种基于 CNN-LSTM 模型和知识图的算法来解决图像描述中缺少特定信息的问题，该模型通过填充来自于 hashtags 的具体命名实体，使得生成的基于输入图像的模板描述信息更加丰富，实验结果表明该模型在多种评价指标上显著优于单模态基准线。

Apr, 2018

图像字幕视觉语义关联数据集

本论文介绍了一种文本视觉背景数据集，用于改进现代图像描述系统，通过融合与场景相关的文本信息，提高图像描述的准确性及语义关联性。

Jan, 2023

实体感知新闻图像标题生成

该研究提出了一种端到端模型，用于为嵌入新闻文章的图像生成标题。该模型采用多模态，多头注意力机制，结合字节对编码的转换器语言模型来应对命名实体识别、多义词汇等问题，并在 CIDEr 评分上实现了当前最高水平的四倍提升。

Apr, 2020

一张图片相当于五个句子吗？对于图像 - 文本匹配的语义进行新的探究

本文提出了两种关联度度量指标，并提出一种新的策略用于定义语义自适应边缘，并将其用于标准三元组损失函数的优化中，从而在有限的训练数据情况下得到了很大的改进。

Oct, 2021

使用知识引导辅助描述包含新型物体的自然图像

提出一种使用知识库指导的、包括多个抽象概念的多实体标签图像识别模型，在描绘描绘未知 / 新物体的图像生成模型中，利用第一步预测的抽象概念作为外部语义关注和约束推理的依据，以处理野外图像中的抽象概念，对 MSCOCO 数据集进行了实验验证，结果显示出了优于以前大部分工作的性能，并可用于知识和视觉的通用集成。

Oct, 2017

基于照片的自然语言推理语料库

本文介绍了一个新数据集，包含 107292 个英语句子与网络照片的组合，任务是确定自然语言字幕是否与一对照片相符。数据要求包括数量、比较和关系等组成性联合推理的定性分析以及强大的视觉推理方法的评估。

Nov, 2018

神经婴儿语

本论文提出了一种新颖的图像字幕生成模型，可在生成自然语言描述的同时，引入与图像实体检测相关的概念填充，通过生成带有显式图像区域链接的句子模板，并利用检测到的可视化概念填充这些区域，实现端到端的可微分框架，并在标准图像字幕生成和新物体字幕生成上达到了当前最先进水平。

Mar, 2018