Jun, 2024

ClawMachine:提取视觉令牌作为实体进行指代和定位

TL;DRClawMachine 是一种新的方法,通过直接使用视觉令牌来编码实体,统一了视觉引用和定位的自动回归格式,并通过仅有解码器的架构进行学习,实现了对视觉引用和定位任务的竞争性表现,并减少了对训练数据的需求。此外,ClawMachine 展示了在复杂视觉推理方面整合多源信息的本地能力,这是先前的多模态大型语言模型很难在没有特定适应的情况下实现的。