May, 2023

野外多模态查询对象检测

TL;DRMQ-Det 是一种多模态查询目标检测方法,结合了文本和图像作为类别查询,该方法通过在现有的只有文本的检测器中插入可扩展的感知模块,将类别文本与类别视觉信息相结合,并提出了一种视觉条件掩码语言预测策略,可以显著提高开放式检测的性能。