Jun, 2023
LLaVAR: 文本丰富图像理解增强可视化指导调整
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding
Yanzhe Zhang, Ruiyi Zhang, Jiuxiang Gu, Yufan Zhou, Nedim Lipka...
TL;DR本研究提出了 LLaVAR 模型,是通过用包含文字的图像文本对模型进行训练来增强当前视觉指令调优流程的,该模型显着提高了模型在基于文本的 VQA 数据集上的性能,并通过定性分析展示了与人类交互的潜力。