Mar, 2022

FindIt:自然语言查询下的通用定位

TL;DRFindIt是一个简单而多功能的框架,有效地统一了各种视觉相关任务,包括基于文本的定位、物体检测和短语理解任务。该框架关键在于实现了一个高效的多尺度融合模块,统一了这些任务的不同需求,并发现使用标准目标检测器可以在不需要特定的设计、损失或先前计算出的结果的情况下,有效地统一这些任务。在多个任务上训练的FindIt框架在短语理解和基于文本的定位方面表现更好,而在物体检测方面表现出竞争性。此外,FindIt相比于单任务的基本线性更好地推广到数据和新类别上。