AAAIDec, 2022

面向边缘设备的高效图像字幕生成

TL;DR提出了一种基于 CLIP 模型的轻量级图像字幕生成器 LightCap,可以在资源有限的设备上使用,仅包含 40M 参数,比现有技术方法的模型大小减少了超过 75%,与仅使用单个 CPU 的手机的推理速度为 188ms 每张图像,并在著名数据集上表现出最先进的性能。