Dec, 2023

Vary:为大型视觉语言模型扩展视觉词汇

TL;DR通过提出一种名为 Vary 的新方法,可以在现代大型视觉 - 语言模型(LVLMs)中扩展视觉词汇表,从而实现更出色的细粒度感知和理解能力,特别适用于需要密集和细粒度视觉感知的特殊视觉任务,如文档级 OCR 或图表理解,而传统的视觉词汇表在非英语场景下可能会遇到效率低下或词汇表覆盖不全的问题。