May, 2019

基于关键词的图像搜索动态视觉消歧

TL;DR通过自适应多模型框架解决视觉多义性问题,该框架由两个步骤组成:发现和动态选择文本查询,然后使用基于显著性引导的深度多实例学习网络去除异常值并学习用于视觉消歧的分类模型。