Sep, 2024
从世界到代码:通过自我指导的组合式标题生成和过滤实现多模态数据生成
World to Code: Multi-modal Data Generation via Self-Instructed
Compositional Captioning and Filtering
TL;DR本研究针对传统多模态数据生成中高质量对齐数据缺乏的问题,提出了一种名为“从世界到代码”(W2C)的新型多模态数据构建管道。该方法通过利用视觉语言模型(VLM)提取跨模态信息,并运用一致性过滤策略提高生成质量,实验表明其在视觉问答和视觉定位等基准任务上表现出色,展现了VLM在代码解析能力上的优势。