关键词visual encoder
搜索结果 - 13
- MLLMs 的密集连接器PDFa month ago
- MoVA: 将多模态背景下的视觉专家混合进行调整PDF2 months ago
- 链式侦测:交互推理提升大型视觉语言模型PDF3 months ago
- 漫画文本补全的多模态 TransformerPDF4 months ago
- 协同双重注意力的音视频语音增强与面部线索PDF7 months ago
- 高性能表格结构识别所需的早期卷积PDF8 months ago
- 揭示隐藏的关联:针对与视频相关的对话进行迭代跟踪和推理PDF9 months ago
- 使用 CLIP 的半监督图像字幕生成PDFa year ago
- MetaVL:从语言模型向视觉语言模型转移上下文学习能力PDFa year ago
- CLIP 也可以理解文本:通过提示进行短语理解PDF2 years ago
- ICLR自监督视觉预训练的损坏图像建模PDF2 years ago
- 一种简单且高效的端到端图像描述方法PDF2 years ago
- 另一侧的发现:一种适应视角的匹配编码器用于变化字幕PDF4 years ago
Prev
Next