Dec, 2023

视觉程序蒸馏:将工具和编程推理融入视觉 - 语言模型

TL;DR通过 Visual Program Distillation (VPD) 框架将大型语言模型 (LLM) 的理解能力提炼到一个具备单次前向传递解决复杂视觉任务的视觉 - 语言模型 (VLM) 上,从而改善计数、理解空间关系和组合推理等能力,并在真实世界的应用(有限数据情况下的内容管理)中得到验证。