May, 2024

StrucTexTv3:一个高效的视觉语言模型,适用于文本丰富的图像感知、理解和更多

TL;DRStrucTexTv3 是一种高效的视觉语言模型,通过采用多尺度减少可视转换器和多粒度令牌采样器作为视觉令牌生成器,结合指令学习提高感知与理解能力,并使用 TIM-30M 来提升模型的鲁棒性,实现了领先的文本丰富图像感知任务和理解任务的结果,展现了广泛应用的巨大潜力。