关键词visual encoder
搜索结果 - 13
  • MLLMs 的密集连接器
    PDFa month ago
  • MoVA: 将多模态背景下的视觉专家混合进行调整
    PDF2 months ago
  • 链式侦测:交互推理提升大型视觉语言模型
    PDF3 months ago
  • 漫画文本补全的多模态 Transformer
    PDF4 months ago
  • 协同双重注意力的音视频语音增强与面部线索
    PDF7 months ago
  • 高性能表格结构识别所需的早期卷积
    PDF8 months ago
  • 揭示隐藏的关联:针对与视频相关的对话进行迭代跟踪和推理
    PDF9 months ago
  • 使用 CLIP 的半监督图像字幕生成
    PDFa year ago
  • MetaVL:从语言模型向视觉语言模型转移上下文学习能力
    PDFa year ago
  • CLIP 也可以理解文本:通过提示进行短语理解
    PDF2 years ago
  • ICLR自监督视觉预训练的损坏图像建模
    PDF2 years ago
  • 一种简单且高效的端到端图像描述方法
    PDF2 years ago
  • 另一侧的发现:一种适应视角的匹配编码器用于变化字幕
    PDF4 years ago
Prev
Next