May, 2023

多模态大语言模型下的上下文目标检测

TL;DR本文介绍了一个名为 ContextDET 的多模态模型,该模型解决了现有的 MLLMs 在物体检测方面的局限性,可以对人机交互中的视觉单元进行定位、识别和分配,意义重大。