Jul, 2023

SVIT:扩展视觉指导调整

TL;DR通过构建包括 160 万对问答对、106 千个详细图像描述的 320 万视觉指令调整数据集,对多模态模型进行训练可显著提高其在视觉感知、推理和规划方面的多模态性能。