具有轻量级模型的位置感知视觉问题生成

EMNLPOct, 2023

具有轻量级模型的位置感知视觉问题生成

Location-Aware Visual Question Generation with Lightweight Models

Nicholas Collin Suwono, Justin Chih-Yao Chen, Tun Min Hung, Ting-Hao Kenneth Huang, I-Bin Liao...

TL;DR本研究介绍了一种新颖的任务，即基于位置感知的视觉问题生成（LocaVQG），旨在从与特定地理位置相关的数据中生成引人入胜的问题。通过周围图像和 GPS 坐标将这种位置感知信息进行表示，并提出了一种利用 GPT-4 生成多样化和高级问题的数据集生成流程。然后，我们旨在学习一种轻量级模型，能够解决 LocaVQG 任务并适用于边缘设备，例如手机。为此，我们提出了一种可靠地从位置感知信息生成引人入胜问题的方法。我们所提出的方法在人工评估（如参与度，基准，连贯性）和自动评估指标（如 BERTScore，ROUGE-2）方面优于基线。此外，我们还进行了大量割离研究，以证明我们提出的数据集生成技术和任务解决方法的合理性。

Abstract

This work introduces a novel task, location-aware visual question generation (LocaVQG), which aims to generate engaging questions from data relevant to a particular →

location-aware visual question generation geographical location dataset generation pipeline lightweight model engaging questions

发现论文，激发创造

Multi-VQG：为多张图片生成引人入胜的问题

本文提出基于多张图片生成引人入胜的问题的方法，所建立的 MVQG 数据集以及基于端到端和双阶段体系结构的一系列基线模型表明，建立图像序列背后的故事能够使模型生成更有趣的问题。

Nov, 2022

生成关于图像的自然问题

探索了关于一张图片是如何引发常识推理和抽象事件的问题，提出了一项新颖任务视觉问题生成（VQG），该系统的任务是在展示了一张图片后提出自然而引人入胜的问题，我们提供了三个数据集，涵盖了从目标为中心到事件为中心的各种图像，其中训练数据远比现有最先进的字幕系统提供的数据更抽象，通过训练和测试几种生成和检索模型来解决 VQG 这个任务，评估结果表明，尽管这样的模型为各种图像提出了合理的问题，但与人类性能的差距仍然很大，这激发了我们进一步探索将图像与常识和语用知识联系起来的相关研究。

Mar, 2016

孟加拉语中的视觉问题生成

研究文章提出了一种基于变压器编码器 - 解码器架构的孟加拉语视觉问题生成任务和多种模型变体，通过在给定图像的情况下生成孟加拉语问题，并在翻译 VQAv2.0 数据集上进行训练和评估，结果表明我们的模型能够生成语法正确和相关的问题。

Oct, 2023

ConVQG：带有多模态引导的对比式视觉问句生成

通过使用对比可视化问题生成（ConVQG）方法，我们成功地提出了一种生成基于图像、文本约束以及知识的对比问题的方法，实验证明 ConVQG 在相关性、图像相关性和知识丰富性等方面优于现有方法，并通过人类评估显示对 ConVQG 问题的偏好。

Feb, 2024

定位再生成：通过边界框桥接视觉和语言进行场景文本 VQA

提出了一个用于场景文本视觉问答的多模态框架，采用 “先定位再生成” 的范式，将空间边界框作为连接文本和视觉模态的桥梁，通过预先训练的语言模型增强绝对准确率。

Apr, 2023

基于场景的视觉问题的自动生成

本文提出了一种模型，能够从单个图像中生成具有不同类型的视觉问题。通过采样最可靠的问题类型来自动生成问，该方法在两个真实世界数据集上的实验结果表明，我们的模型在正确性和多样性方面都优于最强基线。

Dec, 2016

使用隐式映射的视觉三维定位学习模型

基于学习的方法，使用生成式查询网络（GQNs）与新颖的注意力机制，无需建立显式的点云或体素地图，实现对 Minecraft 中的 3D 场景进行视觉定位任务。

Jul, 2018

K-VQG: 基于知识的视觉问题生成，用于常识获取

该研究通过构建一个基于知识的 VQG 数据集 K-VQG，引入了一个知识获取的角度，并开发了一种新的 VQG 模型，实验结果表明，该模型在 K-VQG 数据集上的表现优于现有的模型。

Mar, 2022

生成问题相关的字幕以帮助视觉问答

该文介绍了一种新的方法来提高视觉问题回答的性能，该方法利用深度学习的技术，结合语言和视觉的普适性知识来生成针对特定视觉问题的图像描述，并利用在线梯度方法自动确定与问题相关的描述来训练模型，实验结果表明，本方法取得了视觉问题回答领域的最新成果。

Jun, 2019

弱监督视觉问答生成

本文提出一种弱监督视觉问答生成方法，从视觉信息和字幕中合成问答对，使用 ViLBERT 模型对其进行微调，实验结果在 VQA 数据集上表现显著优于其他先进技术。

Jun, 2023