Oct, 2023

Ferret: 任意粒度引用和定位任何内容

TL;DR我们介绍了 Ferret,这是一个新的多模态大型语言模型(MLLM),能够理解图像中任何形状或粒度的空间引用,并准确地确定开放词汇的描述。