Sep, 2019
利用超细语义标签进行解耦的边界框提议和特征提取改善图像描述生成和视觉问答
Decoupled Box Proposal and Featurization with Ultrafine-Grained Semantic
Labels Improve Image Captioning and Visual Question Answering
TL;DR本文研究了对象检测在视觉和语言任务(如图像字幕和视觉问答)中的重要作用以及解耦盒子提议和特征化对下游任务的影响。 实证表明,这导致有效的转移学习和改进的图像字幕和视觉问答模型,以公开可用的基准为衡量。