Feb, 2024
视觉指导调整中基于人工标注任务的扩展
Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning
Zhiyang Xu, Chao Feng, Rulin Shao, Trevor Ashby, Ying Shen...
TL;DR通过构建最具多样性的 Vision-Flan 数据集和两阶段指导调优框架,本研究解决了现有 VLM 框架中的任务多样性和注释错误的挑战,并在广泛的多模态评估基准中取得了最新的最佳性能。