Jun, 2023

Shikra: 发挥多模 LLM 的指代对话魔力

TL;DR本文介绍一种名为 Shikra 的 MLLM 模型,具备自然语言处理输入输出并能处理视觉相关任务,包括定位相关的任务,如 REC 和 PointQA,以及常规的视觉语言任务,如图像字幕和 VQA,实验结果表明其性能良好,能够进行指定物体的坐标提供,并比较用户指定区域的相似性。