Jan, 2024

多轮多模态指称及锚定

TL;DR我们建立了一个名为多模态多轮指称及定位的新任务的基准,并提出了一个名为ChatterBox的视觉语言模型,通过协同处理视觉和语言任务,ChatterBox在多模态对话场景中具有复杂而精确的交互中相较于现有模型在实例级别的理解上表现出更好的性能。