不确定性感知的图像字幕生成

AAAINov, 2022

Uncertainty-Aware Image Captioning

Zhengcong Fei, Mingyuan Fan, Li Zhu, Junshi Huang, Xiaoming Wei...

TL;DR本文提出了一种基于不确定性的图片字幕生成框架，通过并行迭代地从易到难插入不连续的候选单词，将高不确定性的单词在较晚阶段生成，以生成更直观、可解释的字幕。在训练中，作者利用一种基于图像的词袋模型来衡量单词的不确定性，并运用动态规划算法构建训练对。在推理中，作者提出了一种不确定性自适应的并行波束搜索技术，显著提高了推断速度和字幕生成的质量。

Abstract

It is well believed that the higher uncertainty in a word of the caption, the more inter-correlated context information is required to determine it. However, current image captioning methods usually consider the generation of all words in a sentence sequentially and equally. In this pa

uncertainty-aware image captioning prior information hierarchy parallel beam search

发现论文，激发创造

文本引导的图像检索的排名感知不确定性

提出了一种新颖的基于排名感知的不确定性方法，通过使用提供的三元组来建模多对多的对应关系，学习特征的随机排名列表，并对源输入和目标图像的分布表示进行分布规范化，从而在组合图像检索的两个公共数据集上取得了显著的结果。

Aug, 2023

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

指导图像字幕模型生成更具体的字幕

基于图像的标题生成任务中，我们展示了通过微调自回归标题模型来生成更具体的标题，并且在解码过程中应用语言模型指导，从而在参考自由和参考依据的标题度量指标之间取得一定的平衡。

Jul, 2023

来自上下文无关监督的上下文感知字幕

本文针对图像生成环境下的语境问题，提出了一种关键词区分的图像描述生成方法，该方法不需要针对每个具体图像进行训练，可以在广泛的背景数据上实现对关键特征的描述和生成。根据实验和人类调查结果显示，该方法在区分性描述上优于基准生成型和发话人 - 听众型方法。

Jan, 2017

图像字幕半监督框架

提出了一种新的图像字幕生成方法，该方法能够利用无图像数据的文本数据，并使用区域图像特征生成有意义的二进制向量，从而获得更准确和多样化的字幕。该方法的主要优点是能够生成具有 Salient 图像属性的有意义的二进制向量，并通过软关注机制对其进行解码。

Nov, 2016

半自回归式图像字幕

该研究提出了一种新的两阶段模型，称为半自回归图像字幕生成模型，使用部分先验信息和图像特征，先以自回归方式生成一个间歇性序列，然后使用迭代的非自回归方式填充所有跳过的单词，可以更好地权衡性能和速度，并在 MS COCO 基准测试上得到更好的表现和竞争性推理加速。

Oct, 2021

通过内容多样性探索实现准确的基于文本的图像描述

本文提出了一种基于锚文本和锚中心图的多视角多解释图像说明生成方法，以提高生成说明的多样性和准确性。

Apr, 2021

无监督图像字幕生成

本研究说明无监督学习是可行的图像字幕生成方式，通过利用具有视觉概念检测器的图像集和句子语料库进行训练，生成的字幕能够与图像的语义内容一致且无需图片字幕标注。

Nov, 2018

适用于视力受损人士的质量不敏感图像字幕技术

本文提出了一种质量不受限制的框架，通过数据增强、双网络架构和置信度校准，来提高视障人士图像字幕模型的性能和稳健性，并在与 Royal National Institute of Blind People 合作的辅助生活应用中实现了改进的模型。

Apr, 2023

利用标题中的信息进行弱监督语义分割

通过多模态网络，该工作借助互联网上的图像标注来进行弱监督学习，实现语境上下文对图像中出现的类别的提取与分割，并在 COCO 数据集上取得了 SOTA 的结果。

May, 2019