- 豪萨视觉基因组:用于多模式英豪机器翻译的数据集
该研究创建了首个 Hausa Visual Genome 语料库,其中包含 32923 个图像及图像描述,可用于实现 Hausa-English 机器翻译、多模式研究、图像描述等多个自然语言处理和生成任务。
- 基于领域层归一化的无监督风格图像描述生成
提出了一种可控的时尚图像描述生成模型,通过引入一种新的层归一化层设计来实现学习生成与图像内容更相关的时尚图像描述,并能够通过插入风格特定参数来生成各种不同风格的描述。
- CVPR通过交互式视觉问题生成和回答定制图像叙述生成
本文提出了定制化的图像叙事生成任务,通过用户交互式参与生成过程,并尝试通过反复交互阶段来学习用户的兴趣,从而自动生成更广泛主题的多样化描述,同时可针对交互目标进行定制化。
- CVPR使用基准和共指人生成描述
提出了一种基于弱监督学习的电影描述模型,通过学习角色的可视外观和描述之间的关系来实现角色地位的划分,该模型不仅提高了生成描述的质量,还实现了角色定位,局部共指分辨率,并在 MPII 电影描述数据集上进行了评价。
- 循环主题转移 GAN 用于视觉段落生成
本文提出了一种半监督的自然图像描述方法 ——RTT-GAN,利用区域感知和语言机制生成连贯的段落描述,并通过对抗训练达到建立结构性生成器和多层段落判别器之间的生成并评估技术。
- COLING从音素到图像:一种循环神经模型中的表征层次结构,用于视觉语言学习
基于堆叠门控循环神经网络的视觉语言学习模型,可以通过音素序列描述的图像描述,学习预测图像的视觉特征,并以层级结构表示语言信息。
- 2015 MSCOCO 图像标注挑战赛的经验教训
本篇论文介绍一种基于深度递归结构的生成模型,其结合了近期在计算机视觉和机器翻译方面的进展,能够用于生成描述图像的自然语言句子,并经过多种数据集的实验,验证了模型的准确性和语言的流畅性。更重要的是,该模型是通过对图像描述的学习而得,在最近的 - phi-LSTM:一种面向短语的分层 LSTM 图像字幕生成模型
本文提出了一种基于短期长期记忆(LSTM)和卷积神经网络(CNN)的基于短语层次结构的模型,可用于生成图像描述。该模型以序列化的短语和单词组合而不是通常的序列化单词作为输入,分别学习生成图像相关的名词短语,然后从语料库中的短语和其他单词生成 - MMFlickr30K 数据集中的刻板印象和偏见
本研究检验了 Flickr30K 数据集中众包图像描述假设仅关注可从图像本身获得的信息的假设,并提供偏见和未授权的推断列表,并讨论了在未来应用程序中如何处理以陈规为驱动的描述。
- Multi30K: 多语言英德图像描述
介绍了 Multi30K 数据集以刺激多语言多模态研究,该数据集扩展了 Flickr 30K 数据集以及德国翻译和独立于原始英文描述的描述,并且可以用于多语言图像描述和多模态机器翻译。
- CVPR语义关注下的图像字幕生成
本文提出了一种融合上下文语境的自动图像描述算法,通过自下而上的计算和语义关注的上下文交互作用,成功在 Microsoft COCO 和 Flickr30K 两个公开基准测试中取得了明显的优于现有算法的结果。
- Visual Genome:使用众包密集图像注释连接语言和视觉
该论文介绍了 Visual Genome 数据集,它包含了约 100K 的图像和图像描述、对象、属性、关系和问题答案的密集注释,旨在解决计算机在图像描述、问答等认知任务中的性能瓶颈问题。
- ECCV对象、属性及其关联的弱监督学习
该论文介绍了一种基于弱标记图像的对象属性关联的建模方法,并提出了一个新的弱监督非参数贝叶斯模型,能够描述图像,包括对象、属性、关联及其位置和分割。实验表明,该方法在图像描述和基于对象属性关联的检索任务上表现好于强监督模型。
- 使用视觉注意力的神经图像字幕生成
该论文介绍了一种基于注意力机制的模型,通过机器翻译和物体检测实现图像内容的自动描述,通过最大化变分下界确定性训练该模型,并展示了该模型在生成输出序列时能够自动学习聚焦于显著物体。三个基准数据集上的性能表现也证明了该模型的有效性。
- 深度视觉语义对齐生成图像描述
本文介绍了一个基于卷积神经网络、双向递归神经网络和多模态嵌入的模型,用于生成图像及其区域的自然语言描述,并展示了在多个数据集上,该模型的对齐模型均优于基准检索结果,生成的描述显著优于检索结果和基准。
- 学习用于图像字幕生成的递归视觉表示
本研究探索了图像及其基于语句的描述之间的双向映射,提出了使用递归神经网络学习该映射的方法。我们使用相同的模型生成新的描述句子,并重新构建与图像相关的可视化特征,同时使用新颖的递归视觉记忆来辅助语句生成和可视化特征重构。在生成新的图像描述任务 - CVPRCIDEr:基于共识的图像描述评估
本文提出了一种基于人类共识的评估图像描述的新方法,包括新的基于三元组的人类注释方法、一种捕捉共识的新自动化指标(CIDEr)和包含 50 个对每个图像进行描述的句子的两个新数据集(PASCAL-50S 和 ABSTRACT-50S)。使用这 - CVPR长期循环卷积网络用于视觉识别和描述
研究比较深度卷积网络和带有循环结构的深度卷积神经网络的效果,针对视频识别、图像描述、检索以及视频叙事方面的问题,开发出一种新颖的循环卷积架构,该架构可以训练端到端,可以同时学习时间动态和卷积感知表示,并具有学习长期依赖性的能力。实验结果证明 - 展示并告诉:神经图像字幕生成器
本文提出了基于深度递归架构的生成模型,结合计算机视觉和机器翻译的最新进展,将图像描述为自然语言的句子,实验结果表明了模型的准确性和流畅性。
- 用多模态递归神经网络来解释图像
本文提出了一种基于多模态循环神经网络 (m-RNN) 的模型,实现图像内容的生成式描述,模型包含句子的深度循环神经网络和图像的卷积神经网络两个子网络以及它们的多模态层,经验证在三个基准数据集上的表现优于现有方法,还可以应用于图像或句子的检索