ACLJul, 2021

用语义相关的图片替换文本构建多模式对话数据集

TL;DR本文提出创建一种包含图像的 45k 多模态对话数据集的方法,该方法通过准备、预处理文本对话数据集、使用文本转图像技术创建混合图像对话,以及利用基于上下文相似性的过滤步骤确保数据集的上下文一致性。自动度量和人类评估结果表明,我们的数据集可以有效地用于多模态对话系统的训练,需要以上下文感知的方式理解图像和文本。