EMNLPOct, 2023

具有轻量级模型的位置感知视觉问题生成

TL;DR本研究介绍了一种新颖的任务,即基于位置感知的视觉问题生成(LocaVQG),旨在从与特定地理位置相关的数据中生成引人入胜的问题。通过周围图像和 GPS 坐标将这种位置感知信息进行表示,并提出了一种利用 GPT-4 生成多样化和高级问题的数据集生成流程。然后,我们旨在学习一种轻量级模型,能够解决 LocaVQG 任务并适用于边缘设备,例如手机。为此,我们提出了一种可靠地从位置感知信息生成引人入胜问题的方法。我们所提出的方法在人工评估(如参与度,基准,连贯性)和自动评估指标(如 BERTScore,ROUGE-2)方面优于基线。此外,我们还进行了大量割离研究,以证明我们提出的数据集生成技术和任务解决方法的合理性。