关键词vision encoder
搜索结果 - 6
  • WIDIn:面向单源域泛化的领域不变表示的词语图像
    PDFa month ago
  • GPT-4V 的进展:通过开源套件缩小与商业多模型的差距
    PDF2 months ago
  • 火山:通过自反馈引导修订来减轻多模态幻觉
    PDF8 months ago
  • 分析仅基于 LLM 方法在基于图像的文件问答中的效果
    PDF9 months ago
  • Shikra: 发挥多模 LLM 的指代对话魔力
    PDFa year ago
  • Re-ViLM: 检索增强的视觉语言模型,用于零和少量样本图像字幕生成
    PDFa year ago
Prev
Next