从字幕到视觉概念的转换和回归
本研究探索了图像及其基于语句的描述之间的双向映射,提出了使用递归神经网络学习该映射的方法。我们使用相同的模型生成新的描述句子,并重新构建与图像相关的可视化特征,同时使用新颖的递归视觉记忆来辅助语句生成和可视化特征重构。在生成新的图像描述任务中,我们的自动生成字幕被人类喜欢的比例超过了 19.8%。和使用类似的视觉特征方法相比,我们的结果在图像和语句检索任务上达到了同等或更好的效果。
Nov, 2014
本文提出了一种使用平行结构、利用图像和句子之间的相似性及上下文信息生成图像描述的方法,将视觉感知与文本描述相结合,使用场景特定的上下文信息对句子中的词语生成进行调整,在多个流行数据集上的实验表明本方法在生成精准、丰富的图像描述方面表现优异。
Jun, 2015
该论文探讨图像字幕的新评估视角,并引入了一项名词翻译任务,通过从一组名词到字幕的翻译实现了相对图像字幕生成性能,还研究了称作 BLEU 的指标中各个单词类别的下限和上限。
Oct, 2016
本文针对图像生成环境下的语境问题,提出了一种关键词区分的图像描述生成方法,该方法不需要针对每个具体图像进行训练,可以在广泛的背景数据上实现对关键特征的描述和生成。根据实验和人类调查结果显示,该方法在区分性描述上优于基准生成型和发话人-听众型方法。
Jan, 2017
这篇论文讨论了我们在图像字幕生成实验中的结果,并展示了我们的模型准确性以及从图像描述中学习的语言的流畅性,在几个标记数据集上进行了实验。我们将图像字幕应用于创建视频字幕,并提出了一些挑战性的假设。
May, 2018
本文提出了一种新的图像字幕架构,通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成,实现多模态问题解决和优化。在MSCOCO数据集上进行广泛实验,证明该框架在多种评估指标下取得了业内最优表现。
Jun, 2020
使用图像和标题的联合信息进行预训练可提高图像表征能力,该方法通过 image-conditioned masked language modeling(ICMLM)任务来实现,训练出的表征能够成功应用于多种目标任务。
Aug, 2020
本文综合研究图像描述中的视觉编码、文本生成、训练策略、数据集和评估指标等方面,量化比较多个相关的最前沿方法,以识别体系结构和训练策略中最具影响力的技术创新并探讨问题的许多变体和开放挑战,旨在为理解现有文献和强调计算机视觉和自然语言处理领域的未来方向提供工具。
Jul, 2021