Nov, 2023

Q-Instruct: 提升多模态基础模型的低层视觉能力

TL;DR基于 GPT-4V 的多模态基础模型,在低级视觉感知和理解任务方面带来了新的范式,可以对多种自然人类指令做出响应。通过大规模的主观实验收集了大量关于低级视觉的真实人类反馈,建立了包含 58K 个详细反馈的 Q-Pathway 数据集,实验结果表明,Q-Instruct 能够提升多个基础模型在低级感知和理解能力方面的表现,我们的数据集和模型展示可在所发布的网址获取。