图像字幕注意力区域
提出了一种新的面积关注机制,即区域关注,使模型能够动态决定区域的形状和大小以关注不同粒度的信息,可以应用于神经机器翻译和图像字幕生成等任务中,并取得了强于现有状态的良好实验结果。
Oct, 2018
本研究提出了一种基于文本引导注意力模型的图像字幕生成方法,其能够通过联合图片及相应说明文本的训练数据来实现视觉关注,有效地区分图像中的细小或混淆对象,进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。
Dec, 2016
本文提出了一种引导式的注意力网络机制,将图像的空间特征、主题的高级信息以及生成的字幕的时间上下文嵌入到一个有序的嵌入空间中进行训练,采用成对的排序目标函数,该模型在 MSCOCO 数据集上表现出与众多最先进模型相媲美的竞争力。
Apr, 2022
本文提出了一种利用深度学习技术中的循环记忆 - 关注模块来实现图像多标签分类识别的新方法。通过不使用候选区域提取方法,从卷积特征图中定位注意区域,并使用 LSTM 子网络对这些区域进行语义标记和全局依赖性的序列预测。试验表明该方法在识别准确率和效率上均优于现有技术。
Nov, 2017
使用两种类型的注意力机制:从上至下的语言传达信息和自底向上的视觉信号,通过提出 Boosted Attention 模型实现将它们整合在图像字幕生成任务中,从而提高了效果。
Mar, 2019
本文提出了一种使用平行结构、利用图像和句子之间的相似性及上下文信息生成图像描述的方法,将视觉感知与文本描述相结合,使用场景特定的上下文信息对句子中的词语生成进行调整,在多个流行数据集上的实验表明本方法在生成精准、丰富的图像描述方面表现优异。
Jun, 2015
本研究提出基于 Transformer 的全局与局部信息探索与提炼方法,在跨模态视角下探究图像字幕生成,并在 COCO 测试集上取得了 129.3 的 CIDEr 分数。
Feb, 2020
本文提出了一种融合上下文语境的自动图像描述算法,通过自下而上的计算和语义关注的上下文交互作用,成功在 Microsoft COCO 和 Flickr30K 两个公开基准测试中取得了明显的优于现有算法的结果。
Mar, 2016
本文提出了一种新的注意力机制,称为主题引导注意力,在图像字幕生成中应用,通过将图像主题整合到注意力模型中作为指导信息,协助选择最重要的图像特征。在微软 COCO 数据集上的实验结果表明,该方法在各种定量指标上具有最先进的性能。
Jul, 2018