Nov, 2023

NExT-Chat:一种聊天、检测和分割的 LMM

TL;DR我们引入一种名为 pixel2emb 方法的新范式,通过该方法可以在多模态对话中使用不同的位置格式,提高具有有限资源的场景下对象定位的性能,并训练一个名为 NExT-Chat 的多任务大型多模态模型,展示其处理视觉对齐、区域描述和基于对齐的推理的能力。