自适应对齐图像描述生成:自适应关注时间
本文提出了一种名为 Attention on Attention (AoA) 的模块,旨在扩展传统的注意机制以确定关注结果与查询之间的相关性,应用于编码器和解码器的图像字幕模型 AoANet 显示出了比以前的方法更好的性能,实现了 MS COCO Karpathy 离线测试拆分的 129.8 CIDEr-D 得分和官方在线测试服务器的 129.6 CIDEr-D (C40) 得分的最新技术水平。
Aug, 2019
通过引入自适应注意力机制以及分层 LSTM(Hierarchical LSTM),提出了一种基于注意力的编码器 - 解码器框架,并在图像和视频描述生成领域通过应用空间或时间注意力机制进行预测。实验表明所提出的框架在图像和视频描述生成任务中均取得了最先进的性能,同时还充分探讨了其各个组成部分的重要贡献。
Dec, 2018
通过引入 hierarchical LSTM 和 adjusted temporal attention 的方式,利用 temporal attention 来选择特定的帧来预测相关的单词,并决定是否及如何利用视觉和语言上下文信息,以支持视频字幕生成的多层次模型设计,最终在 MSVD 和 MSR-VTT 数据集上优于现有方法。
Jun, 2017
提出了基于注意力机制的图像描述模型,该模型使用三种成对的交互来建立图像区域、描述文本和 RNN 语言模型之间的依赖关系,并运用空间变换器来生成最佳的区域关注机制,达到了 MSCOCO 数据集上的最佳结果。
Dec, 2016
本文提出了一种新的自适应注意力模型,具有视觉哨兵,在每个时间步骤,模型决定是关注图像还是关注视觉哨兵,通过这种方式针对性地提取有意义的信息以生成图像字幕,实验证明我们的方法在 COCO 图像字幕 2015 年挑战数据集和 Flickr30K 上的效果优越并创造了新的最佳表现。
Dec, 2016
本研究提出并介绍了一种新型的属性 - 信息组合注意力网络 AIC-AB NET,将空间注意力架构和文本属性相结合,以生成图注。经过对 MS COCO 数据集和一个新的时尚数据集的测试和评估,结果显示所提出的模型相对于最先进的基线模型和删除模型具有卓越的性能。
Jul, 2023
本文提出了一种新的注意力机制,称为主题引导注意力,在图像字幕生成中应用,通过将图像主题整合到注意力模型中作为指导信息,协助选择最重要的图像特征。在微软 COCO 数据集上的实验结果表明,该方法在各种定量指标上具有最先进的性能。
Jul, 2018
本文提出了一种使用平行结构、利用图像和句子之间的相似性及上下文信息生成图像描述的方法,将视觉感知与文本描述相结合,使用场景特定的上下文信息对句子中的词语生成进行调整,在多个流行数据集上的实验表明本方法在生成精准、丰富的图像描述方面表现优异。
Jun, 2015
提出了一种名为文本条件注意力的新型注意力机制,它允许生成器在给定先前生成的文本的情况下专注于特定的图像特征,通过在一个端到端的网络结构中联合学习图像嵌入,文本嵌入,文本条件注意力和语言模型。在 MS-COCO 数据集上进行了大量实验,实验结果表明,该方法在各种定量指标以及人类评估方面均优于现有的图像字幕方法,这支持了在图像字幕中使用文本条件注意力的应用。
Jun, 2016
本研究提出了一种基于文本引导注意力模型的图像字幕生成方法,其能够通过联合图片及相应说明文本的训练数据来实现视觉关注,有效地区分图像中的细小或混淆对象,进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。
Dec, 2016