Oct, 2019

利用辅助文本进行深度识别未见视觉关系

TL;DR提出一种融合图像和文本信息用于视觉关系检测和场景图生成的深度模型,通过共同的文本图像表示方法实现文本补充图像数据,结果表明图像中没有的文本信息可以显著提高模型性能