图像字幕

May, 2018

Image Captioning

Vikram Mullachery, Vishal Motwani

TL;DR这篇论文讨论了我们在图像字幕生成实验中的结果，并展示了我们的模型准确性以及从图像描述中学习的语言的流畅性，在几个标记数据集上进行了实验。我们将图像字幕应用于创建视频字幕，并提出了一些挑战性的假设。

Abstract

This paper discusses and demonstrates the outcomes from our experimentation on image captioning. image captioning is a much more involved task than image recognition or →

image captioning image recognition classification labeled datasets video captions

发现论文，激发创造

现实世界图像描述和场景识别的全面分析

图像字幕生成是一项计算机视觉任务，涉及为图像生成自然语言描述，本文评估了基于不同编码机制、语言解码器和训练过程构建的多种模型在真实世界图像字幕生成方面的性能。

Aug, 2023

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

使用深度神经网络架构进行图像字幕生成

该文讨论了图像字幕生成的各种模型，描述了对象识别和机器翻译的进展以及如何实现该模型，最后使用标准评估矩阵评估了该模型的性能。

Jan, 2018

图像字幕的深度学习综述

该研究综述了基于深度学习的图像描述技术，包括目标识别、句子生成及评估度量等方面进行了探讨。

Oct, 2018

图像字幕有时传达的信息超过其所能看到的图像

本研究探讨了图像字幕生成器将原始图像信息转化为文本时信息的损失程度，并通过对比使用标准图像分类器和仅使用文本分类器进行的灾难图像分类任务的结果来评估了几种图像字幕生成模型，表明在某些情况下文本分类器可以比标准图像分类器实现更高的准确度，同时还表明将图像分类器与文本分类器进行融合可以提高准确性。

May, 2023

新闻报道场景下的图像描述

图像字幕生成的研究探索了针对名人照片的任务，旨在通过更直观的图像字幕框架丰富新闻报道的叙述，从而增强自动化新闻内容生成，促进信息的更具细致的传播。

Mar, 2024

从展示到描述：深度学习图像字幕化综述

本文综合研究图像描述中的视觉编码、文本生成、训练策略、数据集和评估指标等方面，量化比较多个相关的最前沿方法，以识别体系结构和训练策略中最具影响力的技术创新并探讨问题的许多变体和开放挑战，旨在为理解现有文献和强调计算机视觉和自然语言处理领域的未来方向提供工具。

Jul, 2021

部分监督图像字幕生成

通过有标签的图片和物体检测数据教授图像字幕模型学习新的视觉概念，通过有限状态自动机表示部分指定的序列数据并提出了一种新颖的算法，可以训练神经网络。在图像字幕任务中，我们取得了基于 COCO 数据集的最新物体字幕任务的最先进结果，并进一步表明，我们可以训练一个字幕模型来描述来自 Open Images 数据集的新的视觉概念，同时保持竞争性的 COCO 评估得分。

Jun, 2018

2015 MSCOCO 图像标注挑战赛的经验教训

本篇论文介绍一种基于深度递归结构的生成模型，其结合了近期在计算机视觉和机器翻译方面的进展，能够用于生成描述图像的自然语言句子，并经过多种数据集的实验，验证了模型的准确性和语言的流畅性。更重要的是，该模型是通过对图像描述的学习而得，在最近的 COCO 数据集比赛中获得了与 Microsoft Research 团队平分秋色的好成绩，并提供了一个基于 TensorFlow 开源的实现。

Sep, 2016

卷积图像描述

本文提出了一种卷积图像字幕生成技术，并在 MSCOCO 数据集上展示了其与基准模型相媲美的性能，同时具有更快的训练时间和更少的参数数量。作者还对其模型的优点进行了详细分析，提出了卷积语言生成方法的有力证据。

Nov, 2017