MMAug, 2021

基于问题控制的文本感知图像描述

TL;DR本研究提出了一种新的受控图像文本生成任务 Qc-TextCap,并通过设计问题控制模型(GQAM)达到比现有模型更好的文本生成性能和问题答案能力,同时构建了两个数据集(ControlTextCaps 和 ControlVizWiz),提高了多样化和信息性。