Dec, 2023

AM-RADIO: 聚合模型 -- 将所有领域合并为一个

TL;DRAM-RADIO 是一种通过多教师蒸馏将多个视觉基础模型 (BFM) 有效合并为一个统一模型的方法,超越了单个教师模型的性能,并融合了其独特的特征,如零 - shot 视觉 - 语言理解、像素级理解和开放式词汇分割能力。通过评估多个架构,此方法还开发了一种比以前的模型性能更好且至少快 7 倍的硬件高效背骨 (E-RADIO)。综合基准测试还包括 ImageNet 分类、ADE20k 语义分割、COCO 目标检测和 LLaVa-1.5 框架。