关键词visual tokens
搜索结果 - 12
- 用于长视频问答的分层记忆PDF4 days ago
- LLaVolta: 通过分阶段视觉上下文压缩实现高效多模态模型PDF6 days ago
- 语境长距离从语言到视觉的转换PDF10 days ago
- 大规模视觉语言模型的 Matryoshka 查询转换器PDFa month ago
- ConvLLaVA:大型多模型视觉编码器的分层主干PDFa month ago
- 语言模型对生物医学成像任务的免费助推器PDF3 months ago
- LLaVA-PruMerge: 高效大型多模态模型的自适应令牌减少PDF3 months ago
- Chat-UniVi:统一视觉表示赋予大型语言模型图像和视频理解能力PDF8 months ago
- 在大型语言模型中种下一个愿景的种子PDFa year ago
- 使用视觉 Transformer 进行细粒度的图片风格转换PDF2 years ago
- ECCV使用 Token-Critic 改进的遮蔽图像生成PDF2 years ago
- AAAIPeCo: 基于感知编码本的视觉 Transformer BERT 预训练PDF3 years ago
Prev
Next