Mar, 2024

图像在第二层之后价值为 1/2 令牌:大型视觉语言模型的即插即用推理加速

TL;DR通过学习自适应注意力模式和精简视觉标记,FastV 可显著降低计算成本并在各种图像和视频理解任务中保持优秀性能,有助于在边缘设备和商业模型中部署大规模视觉 - 语言模型。