Mar, 2025

VisualWebInstruct:通过网络搜索扩大多模态指令数据的规模

TL;DR本研究解决了多模态推理数据集稀缺的问题,提出了一种新颖的方法VisualWebInstruct,利用搜索引擎创建覆盖多个学科(如数学、物理、金融等)的多样化高质量数据集。通过从30,000张精选的种子图像出发,最终构建了约90万对问答对,其中40%为视觉问答对。经过在VisualWebInstruct上微调的模型取得了显著的性能提升,尤其是在复杂多模态推理任务中的表现,显示出该数据集在提升视觉语言模型推理能力方面的有效性。