BriefGPT.xyz
大模型
Ask
alpha
关键词
text-rich images
搜索结果 - 2
StrucTexTv3:一个高效的视觉语言模型,适用于文本丰富的图像感知、理解和更多
StrucTexTv3 是一种高效的视觉语言模型,通过采用多尺度减少可视转换器和多粒度令牌采样器作为视觉令牌生成器,结合指令学习提高感知与理解能力,并使用 TIM-30M 来提升模型的鲁棒性,实现了领先的文本丰富图像感知任务和理解任务的结果
→
PDF
a month ago
LLaVAR: 文本丰富图像理解增强可视化指导调整
本研究提出了 LLaVAR 模型,是通过用包含文字的图像文本对模型进行训练来增强当前视觉指令调优流程的,该模型显着提高了模型在基于文本的 VQA 数据集上的性能,并通过定性分析展示了与人类交互的潜力。
PDF
a year ago
Prev
Next