Dec, 2023

通用粗细视觉语言模型设计:万能任务大师

TL;DR这篇研究论文介绍了 VistaLLM,一种能够处理视觉输入并统一各种视觉 - 语言任务的通用视觉系统,它利用指令调整的方法解决了在单一框架中集成分割、多图像输入和粗粒度任务的问题。通过使用说明的图像分词器提取压缩和精炼特征,以及使用梯度感知的自适应采样技术将二进制分割掩膜表示为序列,VistaLLM 显著提高了性能,并在广泛的任务中实现了领先的结果。