Mar, 2024

自适应大型视觉语言模型在视觉模态之间适用于边缘设备

TL;DR通过双模态知识蒸馏和量化感知对比学习,EdgeVL 框架实现了大型视觉语言模型在资源受限设备上的高效使用,无需手动标注,提高了在多种视觉模态下的开放词汇分类性能,同时在多个数据集上提升了 15.4% 的准确性,并在模型规模上缩小了 93 倍。