Feb, 2024

视觉指导调整中基于人工标注任务的扩展

TL;DR通过构建最具多样性的 Vision-Flan 数据集和两阶段指导调优框架,本研究解决了现有 VLM 框架中的任务多样性和注释错误的挑战,并在广泛的多模态评估基准中取得了最新的最佳性能。