使用基于字符级别推理的实用信息化图像字幕生成

ACLApr, 2018

使用基于字符级别推理的实用信息化图像字幕生成

Pragmatically Informative Image Captioning with Character-Level Inference

Reuben Cohn-Gordon, Noah Goodman, Christopher Potts

TL;DR本文提出了一种将神经图像字幕生成器与 Rational Speech Acts（RSA）模型相结合的系统，其核心目标是生成不仅真实而且能够将其输入与类似图像区分开的字幕。通过在字幕展开期间实现一种基于字符（“a”，“b”，“c”…）的 RSA 版本来解决以前的计算效率问题，同时提出了一种自动测试质询演讲者模型性能的方法，并表明我们的模型优于非语用基线，以及单词级 RSA 字幕生成器。

Abstract

We combine a neural image captioner with a Rational Speech Acts (RSA) model to make a system that is pragmatically informative: its objective is to produce captions that are not merely true but also distinguish their inputs from similar images. Previous attempts to combine RSA with neu

neural image captioner rational speech acts model pragmatic informatic referential captions character-level decisions

发现论文，激发创造

图像生成字幕的神经组合范式

本文提出了一种用于图像字幕生成的可分解的相互递归生成过程，通过对语义和句法明确的因式分解，更好地保留了语义内容。所提出的组合过程需要较少的数据进行训练，并具有更好的广义和多样性。

Oct, 2018

实用感问题敏感图像字幕

本文提出了一种基于 Rational Speech Acts 模型的 Issue-Sensitive Image Captioning（ISIC）方法，通过给定一个问题集合和目标图片，生成与问题相关的图像描述并在实验证实其有效性。

Apr, 2020

一图胜千言：原则性重描述提升图像生成

通过重新标注语料库并以此为基础训练文本到图像模型，可以显著提高模型的图像质量和语义对齐，并减少训练与推理之间的差异，增加样例效率，使模型更好地理解标题和图像之间的关系。

Oct, 2023

一幅画胜千言：用于生成多样化字幕和富有表现力图像的统一系统

该研究采用创意图像和文本生成 AI 系统，通过多模态框架实现了多样化的标题和图像创建，同时采用 Transformer 网络模型支持多种标题参考，采用非自回归解码策略实现实时推断。

Oct, 2021

随心所欲的图像字幕生成：一种有效注入情感到图像描述的多功能方案

通过将情感注入图像描述中，我们提出了两种不同的深度学习模型，这些模型可以生成具有情感的图像描述，并可以轻松地以所需的情感生成不同的描述。

Jan, 2018

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

序列型演员 - 评论家算法在图像字幕生成中的应用

本研究探究了基于 actor-critic 强化学习的图像标题生成模型的训练方法，通过计算每个 token 的优势和值实现直接优化语言质量指标，取得了在 MSCOCO 数据集上的最先进性能。

Jun, 2017

基于神经模型的图像标题增强

本研究使用深度学习模型来探索神经图像字幕生成的领域，研究不同的神经网络架构配置，重点关注注入架构，并提出了一种新的质量度量标准来评估字幕生成。通过广泛的实验和分析，本研究揭示了图像字幕生成中的挑战和机遇，深入洞察了模型行为和过度拟合问题。结果显示，尽管合并模型具有更大的词汇量和更高的 ROUGE 分数，注入架构生成相关而简洁的图像字幕。研究还强调了优化训练数据和超参数以提高模型性能的重要性。本研究为神经图像字幕生成领域的日益增长的知识体系做出了贡献，鼓励进一步探索该领域，强调了人工智能的民主化。

Dec, 2023

图像字幕的语言模型：习惯和奏效

该研究比较了不同的语言模型方法在图像字幕生成中的优缺点，并使用与众不同的语言模型方法，结合这些方法在 COCO 数据集上取得了新的记录性能。

May, 2015

生成描述性图像段落的分层方法

本文提出一种生成整段文字描述图片的方法，相比仅仅用一句话进行描述，该方法能够提供更加细致以及连贯的故事情节。该方法使用了分层递归神经网络对图片中的语义区域以及自然语言进行建模并生成整段文字。在实验中该方法被证明是较为有效的。

Nov, 2016