野外场景下的丰富图像描述

Mar, 2016

Rich Image Captioning in the Wild

Kenneth Tran, Xiaodong He, Lei Zhang, Jian Sun, Cornelia Carapcea...

TL;DR本研究提出了一种图像描述系统，通过在先进的架构上建立深度视觉模型、实体识别模型和信心模型等方式，有效地解决了在野外环境下图像描述的质量、异领域数据处理和低延迟等挑战，并在领域内和领域外的数据集上都显著优于之前的最佳实践结果。

Abstract

We present an image caption system that addresses new challenges of automatically describing images in the wild. The challenges include high quality caption quality with respect to human judgments, out-of-domain data

image caption vision model entity recognition confidence model out-of-domain data

发现论文，激发创造

现实世界图像描述和场景识别的全面分析

图像字幕生成是一项计算机视觉任务，涉及为图像生成自然语言描述，本文评估了基于不同编码机制、语言解码器和训练过程构建的多种模型在真实世界图像字幕生成方面的性能。

Aug, 2023

一幅画胜千言：用于生成多样化字幕和富有表现力图像的统一系统

该研究采用创意图像和文本生成 AI 系统，通过多模态框架实现了多样化的标题和图像创建，同时采用 Transformer 网络模型支持多种标题参考，采用非自回归解码策略实现实时推断。

Oct, 2021

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

2015 MSCOCO 图像标注挑战赛的经验教训

本篇论文介绍一种基于深度递归结构的生成模型，其结合了近期在计算机视觉和机器翻译方面的进展，能够用于生成描述图像的自然语言句子，并经过多种数据集的实验，验证了模型的准确性和语言的流畅性。更重要的是，该模型是通过对图像描述的学习而得，在最近的 COCO 数据集比赛中获得了与 Microsoft Research 团队平分秋色的好成绩，并提供了一个基于 TensorFlow 开源的实现。

Sep, 2016

实体感知图像标题生成

提出了一种基于 CNN-LSTM 模型和知识图的算法来解决图像描述中缺少特定信息的问题，该模型通过填充来自于 hashtags 的具体命名实体，使得生成的基于输入图像的模板描述信息更加丰富，实验结果表明该模型在多种评价指标上显著优于单模态基准线。

Apr, 2018

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

使用知识引导辅助描述包含新型物体的自然图像

提出一种使用知识库指导的、包括多个抽象概念的多实体标签图像识别模型，在描绘描绘未知 / 新物体的图像生成模型中，利用第一步预测的抽象概念作为外部语义关注和约束推理的依据，以处理野外图像中的抽象概念，对 MSCOCO 数据集进行了实验验证，结果显示出了优于以前大部分工作的性能，并可用于知识和视觉的通用集成。

Oct, 2017

实体感知新闻图像标题生成

该研究提出了一种端到端模型，用于为嵌入新闻文章的图像生成标题。该模型采用多模态，多头注意力机制，结合字节对编码的转换器语言模型来应对命名实体识别、多义词汇等问题，并在 CIDEr 评分上实现了当前最高水平的四倍提升。

Apr, 2020

视觉新闻：新闻图片字幕的基准和挑战

提出了 Visual News Captioner，这是一种实体感知模型，用于新闻图像字幕的任务。同时，引入了 Visual News，这是一个规模较大的基准，其中包含 100 多万张新闻图片以及相关新闻文章，图像字幕，作者信息和其他元数据等。

Oct, 2020

使用深度神经网络架构进行图像字幕生成

该文讨论了图像字幕生成的各种模型，描述了对象识别和机器翻译的进展以及如何实现该模型，最后使用标准评估矩阵评估了该模型的性能。

Jan, 2018