生成描述性图像段落的分层方法
通过使用 “连贯向量”、“全局主题向量” 和变分自动编码器对段落生成技术进行增强,以解决图像关联性固有的歧义性,本文在两个数据集上比现有最先进技术表现更为出色。
Sep, 2018
本文提出了一个简单的模型,可以根据给定的图片生成相关的句子,它主要侧重于句子的语法,并基于先前训练的卷积神经网络对图像进行编码。该模型使用纯双线性模型训练一个度量来衡量图像表示和用于描述图像的短语之间的关系,并能够基于推断的短语产生给定测试图像的相关描述。这一方法在 Flickr30k 和 Microsoft COCO 等数据集中实现了可比较的结果,同时相对于最先进的模型而言,该方法更加简单。
Feb, 2015
本文提出了一种使用纯 CNN 模型生成可包含丰富细节的长段落视觉描述的方法,使用上下文信息的层次 CNN 架构,以及对抗性训练方案,以实现全面建模段落的目的,并在 Stanford 视觉段落数据集上获得了最先进的性能。
Apr, 2020
本文提出了一种用于图像字幕生成的可分解的相互递归生成过程,通过对语义和句法明确的因式分解,更好地保留了语义内容。所提出的组合过程需要较少的数据进行训练,并具有更好的广义和多样性。
Oct, 2018
本文提出了一种使用平行结构、利用图像和句子之间的相似性及上下文信息生成图像描述的方法,将视觉感知与文本描述相结合,使用场景特定的上下文信息对句子中的词语生成进行调整,在多个流行数据集上的实验表明本方法在生成精准、丰富的图像描述方面表现优异。
Jun, 2015
提出了一种基于 CNN-LSTM 模型和知识图的算法来解决图像描述中缺少特定信息的问题,该模型通过填充来自于 hashtags 的具体命名实体,使得生成的基于输入图像的模板描述信息更加丰富,实验结果表明该模型在多种评价指标上显著优于单模态基准线。
Apr, 2018
本文综合研究图像描述中的视觉编码、文本生成、训练策略、数据集和评估指标等方面,量化比较多个相关的最前沿方法,以识别体系结构和训练策略中最具影响力的技术创新并探讨问题的许多变体和开放挑战,旨在为理解现有文献和强调计算机视觉和自然语言处理领域的未来方向提供工具。
Jul, 2021
本研究提出了一种基于序列学习的新方法,通过选择一系列鲜明的视频片段和产生连贯的句子描述来生成对给定视频的一个连贯段落描述。该方法在 ActivityNet Captions 数据集上表现出能够生成高质量段落描述的能力,比其他方法产生的描述更相关、更连贯和更简洁。
Jul, 2018