视觉 Madlibs: 填空图像生成和问答

May, 2015

Visual Madlibs: Fill in the blank Image Generation and Question Answering

Licheng Yu, Eunbyung Park, Alexander C. Berg, Tamara L. Berg

TL;DR本文介绍了一个包含 360,001 个自然语言描述的新数据集，名为 “Visual Madlibs dataset”，该数据集是通过自动产生的填空模板收集关于人和物体、外貌、活动和互动以及整体场景推理的有针对性的描述。本文提供了有关该数据集的多个分析，展示了它在生成有针对性的描述和对图像进行多选题目、回答方面的应用，采用联合嵌入和深度学习方法进行实验的结果表现良好。

Abstract

In this paper, we introduce a new dataset consisting of 360,001 focused natural language descriptions for 10,738 images. This dataset, the Visual Madlibs dataset, is collected using automatically produced fill-in-the-blank templates designed to gather targeted descriptions about: peopl

visual madlibs dataset natural language descriptions description generation multiple-choice question-answering deep learning

发现论文，激发创造

结合多种线索的视觉 Madlibs 问题回答

本论文提出一种从视觉 Madlibs 数据集回答填空多项选择题的方法，通过使用针对特定任务训练的网络的组合，结合特征提取的空间支持，将每个特征与候选答案映射到联合嵌入空间并解决优化问题，以学习组合来自多个提示的 CCA 模型的分数以选择最佳答案。实验结果表明，与现有技术相比，本方法取得了显著的改进，且在处理各种问题类型时，使用各种图像提示并仔细选择特征提取的空间支持有益。

Nov, 2016

生成关于图像的自然问题

探索了关于一张图片是如何引发常识推理和抽象事件的问题，提出了一项新颖任务视觉问题生成（VQG），该系统的任务是在展示了一张图片后提出自然而引人入胜的问题，我们提供了三个数据集，涵盖了从目标为中心到事件为中心的各种图像，其中训练数据远比现有最先进的字幕系统提供的数据更抽象，通过训练和测试几种生成和检索模型来解决 VQG 这个任务，评估结果表明，尽管这样的模型为各种图像提出了合理的问题，但与人类性能的差距仍然很大，这激发了我们进一步探索将图像与常识和语用知识联系起来的相关研究。

Mar, 2016

通过交互式视觉问题生成和回答定制图像叙述生成

本文提出了定制化的图像叙事生成任务，通过用户交互式参与生成过程，并尝试通过反复交互阶段来学习用户的兴趣，从而自动生成更广泛主题的多样化描述，同时可针对交互目标进行定制化。

Apr, 2018

探索图像问答模型和数据

本研究旨在通过新的模型和数据集解决基于图像的问答问题，使用神经网络和视觉语义嵌入预测有关图像的简单问题的答案，提出了一种将图片描述转化为问答格式的问题生成算法，为新的数据集提供了基线结果。

May, 2015

基于场景的视觉问题的自动生成

本文提出了一种模型，能够从单个图像中生成具有不同类型的视觉问题。通过采样最可靠的问题类型来自动生成问，该方法在两个真实世界数据集上的实验结果表明，我们的模型在正确性和多样性方面都优于最强基线。

Dec, 2016

Multi-VQG：为多张图片生成引人入胜的问题

本文提出基于多张图片生成引人入胜的问题的方法，所建立的 MVQG 数据集以及基于端到端和双阶段体系结构的一系列基线模型表明，建立图像序列背后的故事能够使模型生成更有趣的问题。

Nov, 2022

展示并告诉：神经图像字幕生成器

本文提出了基于深度递归架构的生成模型，结合计算机视觉和机器翻译的最新进展，将图像描述为自然语言的句子，实验结果表明了模型的准确性和流畅性。

Nov, 2014

通过填空问答了解视频数据的数据集和模型探究

本文提出 MovieFIB 数据集，包括超过 300,000 个问题，用于评估针对视频的模型，研究了 5 种不同模型的预测，比较了这些模型与人类表现的差异，并发现在针对视频的任务中，主要是结合了 2D 和 3D 的视觉信息可以提供最佳结果。

Nov, 2016

超越叙述描写：通过多方对抗训练从图像生成诗歌

本文研究以图像为输入生成多行诗歌的任务，通过提出多个深度神经网络模型，包括一个深度视觉 - 诗歌嵌入模型、一个多模式鉴别器和一个诗歌风格鉴别器，并且通过多重对抗性训练方法，实现跨模态关联和保证诗意的诗歌生成能力。实验结果表明，本论文提出的方法优于现有的诗歌生成算法。

Apr, 2018

生成问题相关的字幕以帮助视觉问答

该文介绍了一种新的方法来提高视觉问题回答的性能，该方法利用深度学习的技术，结合语言和视觉的普适性知识来生成针对特定视觉问题的图像描述，并利用在线梯度方法自动确定与问题相关的描述来训练模型，实验结果表明，本方法取得了视觉问题回答领域的最新成果。

Jun, 2019