Nov, 2024
从开放词汇到开放世界:教导视觉语言模型检测新颖对象
From Open Vocabulary to Open World: Teaching Vision Language Models to
Detect Novel Objects
TL;DR本研究解决了传统对象检测方法在固定集合假设下的局限性,尤其是在开放词汇对象检测中未能有效处理近似已知类别和远离已知类别的新对象的问题。提出了一种新框架,使OVD模型能够在开放世界环境中识别并逐步学习新对象,通过开放世界嵌入学习和多尺度对比锚学习等方法,显著提升了对象检测的性能,尤其在自动驾驶场景中展现出更高的准确性。