May, 2024

LLM-Optic:揭示大型语言模型在通用视觉锚定中的能力

TL;DR通过使用大型语言模型作为视觉定位模型的辅助工具,LLM-Optic 方法克服了复杂文本查询的限制,实现了可以通过任意语言输入来检测任意对象的视觉定位能力,无需额外训练或微调。