关键词vision encoder
搜索结果 - 6
- WIDIn:面向单源域泛化的领域不变表示的词语图像PDFa month ago
- GPT-4V 的进展:通过开源套件缩小与商业多模型的差距PDF2 months ago
- 火山:通过自反馈引导修订来减轻多模态幻觉PDF8 months ago
- 分析仅基于 LLM 方法在基于图像的文件问答中的效果PDF9 months ago
- Shikra: 发挥多模 LLM 的指代对话魔力PDFa year ago
- Re-ViLM: 检索增强的视觉语言模型,用于零和少量样本图像字幕生成PDFa year ago
Prev
Next