BriefGPT.xyz
Ask
alpha
关键词
multi-modal applications
搜索结果 - 1
VoCo-LLaMA:面向大型语言模型的视觉压缩
基于 Vision-Language Models 的 VoCo-LLaMA 方法通过引入 Vision Compression tokens 和利用 attention distillation,实现了视觉压缩并提高推理效率,能够理解时间
→
PDF
18 days ago
Prev
Next