多模式考量下的问题生成技术研究

Jul, 2023

多模式考量下的问题生成技术研究

MultiQG-TI: Towards Question Generation from Multi-modal Sources

Zichao Wang, Richard Baraniuk

TL;DR我们研究了从多模态源（包含图像和文本）中自动生成问题（QG）的新问题，明显扩展了现有工作的范围，后者仅关注从文本源生成的 QG。我们提出了一个简单的解决方案，名为 MultiQG-TI，它使得仅基于文本的问题生成器能够处理视觉输入。我们通过利用图像到文本模型和光学字符识别模型来获得图像的文本描述并提取图像中的任何文本，然后将它们与输入文本一起馈送给问题生成器。在具有挑战性的 ScienceQA 数据集上，我们证明了 MultiQG-TI 在几次提示下明显优于 ChatGPT，尽管 MultiQG-TI 的可训练参数数量是 ChatGPT 的百倍少。额外的分析实验证实了 QG 所需的视觉和文本信号的必要性，并展示了各种建模选择的影响。

Abstract

We study the new problem of automatic question generation (QG) from multi-modal sources containing images and texts, significantly expanding the scope of most of the existing work that focuses exclusively on QG f

automatic question generation multi-modal sources text-only question generator image-to-text model scienceqa dataset

发现论文，激发创造

Multi-VQG：为多张图片生成引人入胜的问题

本文提出基于多张图片生成引人入胜的问题的方法，所建立的 MVQG 数据集以及基于端到端和双阶段体系结构的一系列基线模型表明，建立图像序列背后的故事能够使模型生成更有趣的问题。

Nov, 2022

ConVQG：带有多模态引导的对比式视觉问句生成

通过使用对比可视化问题生成（ConVQG）方法，我们成功地提出了一种生成基于图像、文本约束以及知识的对比问题的方法，实验证明 ConVQG 在相关性、图像相关性和知识丰富性等方面优于现有方法，并通过人类评估显示对 ConVQG 问题的偏好。

Feb, 2024

利用视觉问答改进文本到图像合成

该论文提出一种有效的方法，将文本到图像的生成与视觉问答相结合，利用 VQA 2.0 数据集来提高生成图像的图像质量和图像文本对齐，通过生成问题与答案对的额外训练样本，并采用标准的 VQA 模型，提供 T2I 模型的辅助学习信号，鼓励从 QA 对生成的图像看起来更加逼真，并最小化外部 VQA 损失。该方法可以成功提高 T2I 综合的效果，使 FID 从 27.84 降至 25.38，R-prec 从 83.82％提高至 84.79％。

Oct, 2020

基于场景的视觉问题的自动生成

本文提出了一种模型，能够从单个图像中生成具有不同类型的视觉问题。通过采样最可靠的问题类型来自动生成问，该方法在两个真实世界数据集上的实验结果表明，我们的模型在正确性和多样性方面都优于最强基线。

Dec, 2016

文本到图像模型在视觉模态缺失的多模态学习中的应用

通过用生成式变压器填补缺失的视觉数据，我们提出了一个简单但有效的多模态学习框架 GTI-MM，以增强数据效率和模型的鲁棒性，尤其是对于缺少视觉模态的情况。我们在多个多模态数据集上进行了全面的分析，包括模型的训练，结果显示合成图像有助于训练数据的效率，并提高在训练和测试中缺失视觉数据的模型的鲁棒性。此外，我们证明了 GTI-MM 对于生成数量较低和简单提示技术也是有效的。

Feb, 2024

将文本提示引入 AI 生成的图像质量评估

通过图像和提示的融合，IP-IQA 是一个多模态框架，旨在解决 AI 生成图像质量评估中的问题，并在 AGIQA-1k 和 AGIQA-3k 数据集上达到最先进的水平。

Mar, 2024

利用 Transformer 语言模型简化段落级问题生成

Question generation is a natural language generation task that can be achieved with a single Transformer-based unidirectional language model, which outperforms QG baselines and produces high-quality questions that are relevant to their context paragraph and easy to answer, utilizing transfer learning without relying on auxiliary data.

May, 2020

MixQG: 混合答案类型的神经网络问题生成

本文提出了一个名为 MixQG 的神经问题生成器，通过结合 9 个问题回答数据集来训练单一的生成模型，该模型在不同的认知水平中可以产生具有不同类型答案的问题，经实验证明在已知和未知领域中均表现出优越性。

Oct, 2021

MultiModalQA: 文本、表格和图像的复杂问答

本文介绍了一个名为 “MultiModalQA (MMQA)” 的数据集，该数据集需要通过对文本、表格和图像的联合推理来回答问题。作者还创建了一个新框架来生成复杂的多模态问题，并演示了多模态多跳方法在解决这一任务中的必要性。

Apr, 2021

GTM: 一种生成式三元模型用于对话问句生成

提出了一种具有层次变化的生成模型，利用潜在变量在三个层次上表示三元组的共享背景，并在 PQ 和 QA 对中使用一对多的语义映射，以解决在开放领域中生成问题的相关问题，并在大规模 CQG 数据集上进行实验验证。结果表明，该方法在流畅度、连贯性和多样性方面显著提高了问题质量。

Jun, 2021