关键词visual tokens
搜索结果 - 12
  • 用于长视频问答的分层记忆
    PDF4 days ago
  • LLaVolta: 通过分阶段视觉上下文压缩实现高效多模态模型
    PDF6 days ago
  • 语境长距离从语言到视觉的转换
    PDF10 days ago
  • 大规模视觉语言模型的 Matryoshka 查询转换器
    PDFa month ago
  • ConvLLaVA:大型多模型视觉编码器的分层主干
    PDFa month ago
  • 语言模型对生物医学成像任务的免费助推器
    PDF3 months ago
  • LLaVA-PruMerge: 高效大型多模态模型的自适应令牌减少
    PDF3 months ago
  • Chat-UniVi:统一视觉表示赋予大型语言模型图像和视频理解能力
    PDF8 months ago
  • 在大型语言模型中种下一个愿景的种子
    PDFa year ago
  • 使用视觉 Transformer 进行细粒度的图片风格转换
    PDF2 years ago
  • ECCV使用 Token-Critic 改进的遮蔽图像生成
    PDF2 years ago
  • AAAIPeCo: 基于感知编码本的视觉 Transformer BERT 预训练
    PDF3 years ago
Prev
Next