Jul, 2023

多模式考量下的问题生成技术研究

TL;DR我们研究了从多模态源(包含图像和文本)中自动生成问题(QG)的新问题,明显扩展了现有工作的范围,后者仅关注从文本源生成的 QG。我们提出了一个简单的解决方案,名为 MultiQG-TI,它使得仅基于文本的问题生成器能够处理视觉输入。我们通过利用图像到文本模型和光学字符识别模型来获得图像的文本描述并提取图像中的任何文本,然后将它们与输入文本一起馈送给问题生成器。在具有挑战性的 ScienceQA 数据集上,我们证明了 MultiQG-TI 在几次提示下明显优于 ChatGPT,尽管 MultiQG-TI 的可训练参数数量是 ChatGPT 的百倍少。额外的分析实验证实了 QG 所需的视觉和文本信号的必要性,并展示了各种建模选择的影响。